1標本のt検定

1標本のt検定とは?

1標本のt検定は、未知の母平均が特定の値と異なるかどうかを判断するために使用される統計的仮説検定です。

どんな時にこの検定を使用しますか?

連続尺度データの検定を使用できます。データは、正規母集団からの無作為標本である必要があります。

データがほぼ正規分布でない場合は?

標本サイズが非常に小さい場合は、正規性の検定ができない可能性があります。データの理解度に頼る必要があるかもしれません。正規性を安全に仮定できない場合は、正規性を仮定しないノンパラメトリック検定を行うことができます。

1標本のt検定の使用

以下のセクションでは、検定に必要なもの、データの確認、検定の実行、検定結果の解釈、および統計学的詳細について説明します。

必要なものは何でしょう?

1標本のt検定の場合、1つの変数が必要です。

また、母集団の平均はある値をとる、という考えつまり仮説を持っているとします。ここでは2つの例を紹介します。

  • 病院には、男性のコレステロール測定値の無作為標本があります。これらの患者は、コレステロール以外の問題で診察されました。彼らは高コレステロール治療薬を服用していませんでした。病院は、患者の未知の平均コレステロール値が、目標値である200mgと異なるかどうかを知りたいと考えています。
  • エナジーバーの標本のタンパク質のグラム数を測定します。エナジーバーのラベルには、20グラムのタンパク質が含まれていると記載されています。ラベルが正しいかどうか知りたいと考えています。

1標本のt検定における仮定

妥当な検定を行うには、次のようなデータ値が必要です。

  • 独立している(値は相互に関連していない)。
  • 連続変数。
  • 母集団から単純無作為抽出して取得されている。

また、母集団は正規分布していると想定されているものとします。

1標本のt検定の例

一般消費者が入手できるエナジーバーの母集団を表すために、さまざまな店舗から31個のエナジーバーの無作為標本を収集したと想像してください。エナジーバーのラベルには、各バーに20グラムのタンパク質が含まれていると記載されています。

表1:エナジーバーの無作為標本中のタンパク質のグラム数

エナジーバー - タンパク質のグラム数
20.7027.4622.1519.8521.2924.75
20.7522.9125.3420.3321.5421.08
22.1419.5621.1018.0424.1219.95
19.7218.2816.2617.4620.5322.12
25.0622.4419.0819.8821.3922.3325.79

上の表を見ると、20グラム未満のタンパク質が含むバーがあることがわかります。20グラム以上含むバーもあります。ラベルが正しいという考えをデータが裏付けていると思うかもしれません。これに同意しない人もいるでしょう。統計的検定は、判断を下すための適切な方法を与えるため、同じデータ値の集合に対して全員が同じ判断を下すことができます。

データをチェックする

次の項目に答えることから始めます。t検定は、エナジーバーのタンパク質が20グラムであることを確認するのに適切な方法でしょうか? 以下のリストは、検定の要件を確認します。

  • データの値は独立しています。1つのエナジーバーのタンパク質のグラム数は、他のエナジーバーのグラム数に依存しません。従属している値の例は、単一の生産ロットからエナジーバーを収集した場合です。単一のロットからの標本は、全てのエナジーバーではなく、そのロットを代表しています。
  • データ値はタンパク質のグラム数です。測定値は連続変数です。
  • エナジーバーは、一般消費者が入手できるエナジーバーの母集団から単純無作為抽出した標本(つまり、多数のバーの混合)であると想定しています。
  • 標本を収集する母集団は正規分布であると想定しており、大きな標本の場合は、この想定を確認できます。

t検定が適切な方法であると判断します。

分析に取り掛かる前に、データをざっと確認する必要があります。下の図は、エナジーバーのヒストグラムと要約統計量を示しています。

図1:エナジーバー内のタンパク質のグラム数のヒストグラムと要約統計量

ヒストグラムをざっと見てみると、異常値あるいは、外れ値がないことがわかります。データはほぼ釣鐘型に見えるため、正規分布の仮定は妥当なようです。

統計量をざっと見てみると、平均は21.40で、20を上回っています。31本のエナジーバーの標本のこの平均は、未知の全母集団平均に対する20グラムのタンパク質というラベルの表記が正しくない事を示しているのでしょうか? それとも表記は正しいのでしょうか?

1標本のt検定を実行する方法

t検定の計算には、平均、標準偏差、および標本サイズが必要です。これらは、上記の図1の要約統計量のセクションに示されています。

統計量を小数点第2位に四捨五入します。ソフトウェアはより多くの小数点以下の桁数を表示し、それらを計算に使用します(表1は小数点以下2桁のみを示していることに注意してください。要約統計量の計算に使用される実際のデータには、さらに多くの桁があります)。

標本平均と20の差を見つけることから始めます。

$ 21.40-20\ =\ 1.40$

次に、平均の標準誤差を計算します。計算は次のようになります。

平均の標準誤差 = $ \frac{s}{\sqrt{n}}= \frac{2.54}{\sqrt{31}}=0.456 $

これは、上記の図1の値と一致します。

これで、検定統計量を得るためのすべての要素が揃いました。検定統計量の計算は次のようになります。

$ t =  \frac{\text{Difference}}{\text{Standard Error}}= \frac{1.40}{0.456}=3.07$

判断を下すために、検定統計量をt分布の値と比較します。この評価には、次の4つのステップが含まれます。

  1. 検定統計量を計算します。検定統計量は3.07です。
  2. 違いがない場合に、違いあると私たちが判断するリスクを決定します。エナジーバーのデータの場合、未知の母平均が、実際には異なっていないのに、20とは異なると言うリスクを5%取ると決定しました。統計的に言えば、有意水準αを0.05に設定します。実際には、データを収集する前にリスク水準(α)を設定する必要があります。
  3. 決定に基づいてt分布から値を見つけます。t検定の場合、この値を見つけるには自由度が必要です。自由度は、標本サイズに基づいています。エナジーバーのデータでは次のようになります。

    自由度 = $ n - 1 = 31 - 1 = 30 $

    α = 0.05かつ自由度30のt分布の棄却限界値は+/-2.042です。ほとんどの統計学の本には、 t分布の早見表があります。オンラインで分布表を見つけることもできます。最も良くある状況は、ソフトウェアを使用し、印刷された表を使用しないことです。

  4. 統計量の値(3.07)をt値と比較します。3.07 > 2.042なので、タンパク質の平均グラム数が20に等しいという帰無仮説を棄却します。ラベルが正しくなく、母集団の平均タンパク質グラム数が20を超えているという実際的な結論を下します。

統計の詳細

統計用語を使用して、エネルギーバーのデータと1標本のt検定を見てみましょう。

帰無仮説は、基になる母平均が20に等しいというものです。帰無仮説は次のように記述されます。

$ H_o:  \mathrm{\mu} = 20 $

対立仮説は、基になる母平均が20に等しくないというものです。この場合、タンパク質は20グラムと表示されたラベルは正しくありません。これは次のように記述されます。

$ H_a:  \mathrm{\mu} ≠ 20 $

これは両側検定です。母平均が20グラムといずれかの方向に異なるかどうかを検定しています。平均が20グラムに等しいという帰無仮説を棄却できる場合、エネルギーバーのラベルは正しくないという実際的な結論を出します。帰無仮説を棄却できない場合は、エネルギーバーのラベルは正しい可能性があるという実際的な結論を導き出します。

標本平均を計算してから、母平均であるmuとの差を計算します。

$  \overline{x} - \mathrm{\mu} $

標準誤差は次のように計算されます。

$ \frac{s}{ \sqrt{n}} $

この計算式では、標本標準偏差をs、標本サイズをnと表記しています。

検定統計量には、以下に示す計算式を使用します。

$  \dfrac{\overline{x} - \mathrm{\mu}} {s / \sqrt{n}} $

次に、検定統計量を、選択したα値とデータの自由度をもったt値と比較します。例としてエナギーバーのデータを使用して、α = 0.05に設定します。自由度(df)は標本サイズに基づいており、次のように計算されます。

$ df = n - 1 = 31 - 1 = 30 $

統計学者は、α = 0.05かつ自由度30のt値を次のように記述します。

$ t_{0.05,30}$

両側検定の場合、α = 0.05かつ自由度30のt値は、+/-2.042です。データとの比較から起こり得る結果が2つあります。

  • 検定統計量は、棄却限界のt値よりも極端な値ではありません。言い換えると、検定統計量は-2.042以上、かつ+2.042以下です。したがって、平均が指定された値に等しいという帰無仮説を棄却できません。この例では、エネルギーバーのラベルを変更する必要があると結論付けることはできません。
  • 検定統計量は、棄却限界のt値よりも極端な値です。言い換えると、検定統計量は-2.042より小さいか、または+2.042より大きくなっています。したがって、平均が指定された値に等しいという帰無仮説を棄却します。この例では、ラベルを更新するか、平均して20グラムのタンパク質を含むエネルギーバーを製造するために製造プロセスを改善する必要があると結論付けます。

正規性の検定

正規性の仮定は、標本サイズが小さい場合は大きい場合よりも重要です。

正規分布は対称です。つまり、中心を挟んで両側で「均等」です。正規分布には、極値や外れ値はありません。正規分布のこの2つの特徴は、グラフで確認することができます。先ほど、エネルギーバーのデータは正規分布に「近い」と判断し、正規分布であると仮定して話を進めました。下の図は、データの正規分位点プロットを示しており、私たちの判断を裏付けています。

図4:エネルギーバーのデータの正規分位点プロット

ソフトウェアを使用して、正規性の検定を正式に行うこともできます。次の図は、JMPソフトウェアを使用して正規性を検定した結果を示しています。この例では、正規分布であるという仮説を棄却することはできません。

図5:JMPソフトウェアを使用した正規性の検定

エネルギーバーのデータが正規分布しているという仮定で話を進めることができます。

データが正規分布していない場合は?

標本サイズが非常に小さい場合、正規性を検定するのは困難です。このような状況では、測定値に関する洞察が必要になるかもしれません。例えば、エナジーバーのデータの場合、タンパク質のグラム数の基になる分布が正規分布していることを会社が知っているとします。この会社は、非常に小さな標本の場合でも、正規性を仮定してt検定で話を進めるかもしれません。

基になる測定値が正規分布していないことがわかっている場合はどうでしょうか? または、標本サイズが大きく、正規性の検定が棄却された場合はどうでしょうか? この状況では、ノンパラメトリック検定を使用できます。ノンパラメトリック分析は、データ値が特定の分布からのものであるという仮定に依存しません。1標本のt­検定の場合、考えられるノンパラメトリック検定の1つは、Wilcoxonの符号付順位検定です。

p値について理解する

情報を可視化することで、検定統計量が分布の指定された値と比較して極端であるかどうかを確認できます。下の図は、自由度30のt分布を示しています。

図6:自由度30のt分布とα = 0.05

検定は両側検定であり、α = 0.05に設定されているため、この図は、2.042の値が裾の5%のデータを「カットオフ」することを示しています。

次の図は私たちの結果を示しています。検定統計量が指定された棄却限界値を上回っていることがわかります。統計量は「分布の裾の外側」の十分遠くに位置しているため、平均が20に等しいという仮説を棄却できます。

図7:自由度30のt分布に表示された結果

ソフトウェアですべてをまとめる

おそらくソフトウェアを使用してt検定を実行することになるでしょう。次の図は、JMPソフトウェアから出力したもので、エネルギーバーのデータに対する1標本のt検定の結果を示しています。

図8:JMPソフトウェアを使用したエネルギーバーのデータに対する1標本のt検定の結果

JMPソフトウェアは、帰無仮説の値である20と、データの平均値および標準偏差を表示します。検定統計量は3.07です。これは上記の計算と一致します。

JMPソフトウェアは、両側検定と片側検定の結果を表示します。今回は両側検定を使用しようと考えています。帰無仮説は、タンパク質の平均グラム数が20に等しいというものです。対立仮説は、タンパク質の平均グラム数が20に等しくないというものです。JMPソフトウェアは、両側検定で0.0046のp値を示しています。このp値は、基になる母平均が実際に20である場合に、標本平均が21.4以上になる可能性を示します。言い換えると、今回観測された標本平均と同じかそれ以上に、20とは異なる標本平均を観察する確率です。0.0046のp値は、10,000回のうち約46回にその可能性があることを意味します。母平均が20に等しいという帰無仮説を棄却することに信頼をおくことができます。