対応のあるt検定

対応のあるt検定とは?

対応のあるt検定は、対応のある測定値の平均値の差がゼロであるかどうかを検定するために用いられる手法です。

どんな時にこの検定を使用しますか?

データ値が対応のある測定値である場合に検定を使用できます。例えば、あるグループの人々に関して、前後で測定を行う場合があります。また、対応のある測定値の差は正規分布に従う必要があります。

対応のあるt検定の、他の名前は何でしょうか?

対応のあるt検定は、従属標本のt検定、対応のある差のt検定、対応のあるペアのt検定、および反復標本のt検定とも呼ばれます。

データがほぼ正規分布でない場合は?

標本サイズが非常に小さい場合は、正規性を検定できない可能性があります。データに関する洞察が必要になるかもしれません。または、正規性を前提としないノンパラメトリック検定を実行できます。

対応のあるt検定の使用

以下のセクションでは、検定を実行するために必要なもの、データの確認、検定の実行方法、および統計の詳細について説明します。

必要なものは何でしょう?

対応のあるt検定では、2つの変数が必要です。1つ目の変数は、観測値のペアを定義します。2つ目の変数は測定値です。測定変数のペアの差をすでに持っている場合もあります。また、ペアごとの「前」と「後」の測定値を別々の変数に保持していて、差の計算が必要な場合もあります。

また、ペア間の差がゼロであるという考え、つまり仮説を持ちます。ここでは3つの例を紹介します。

  • 乾燥肌の人々のグループが、片方の腕に薬用ローションを使用し、もう片方の腕に非薬用ローションを使用しています。1週間後、医師はそれぞれの腕の赤みを測定します。薬用ローションが非薬用ローションよりも優れているかどうかを知りたいと考えています。これを調べるために、薬用ローションを塗った腕の赤みがもう片方の腕よりも少ないかどうかを調べます。一人一人に対応のある測定値があるので、その差を計算します。それから、平均差がゼロかどうかを検定します。
  • 禁煙プログラムに参加している人の体重を測定します。一人一人について、プログラムの開始時と終了時に測定した体重があります。プログラムに参加している人の平均体重の変化がゼロかどうかを知りたいと考えています。
  • 講師は生徒に試験を行い、翌日、同じ教材を用いて、生徒に別の試験を行います。講師は、2つの試験が同じように難しいかどうかを知りたいと考えています。各学生の試験スコアの差を計算します。平均差がゼロかどうかを検定します。

対応のあるt検定の仮定

対応のあるt検定を適用して対応のある測定値の差を検定するには、次の仮定が成り立つ必要があります。

  • 個体は独立している必要があります。ある個体の測定値は、他の個体の測定値には影響しません。
  • 対応する測定値はそれぞれ、同じ個体から取得する必要があります。例えば、上記の例の喫煙者の前後の体重は、同じ人のものでなければなりません。
  • 測定値の差は正規分布に従います。

対応のあるt検定の例

講師は、来年のクラスで2つの試験を使用したいと考えています。今年、彼女は学生に両方の試験を行います。彼女は、両方の試験が同じぐらい難しいかどうかを知りたいと考えており、両試験のスコアの差を見てこれを確認しようと考えています。学生のスコア間の平均差がゼロに「十分に近い」場合、彼女は2つの試験が同様に難しいという実際的な結論を出します。データは次のようなものです。

表1:各学生の試験スコア

学生

試験1のスコア

試験2のスコア

差分

ボブ63696
ニーナ65650
ティム56626
ケイト10091-9
アロンツォ8878-10
ジョセ83874
ニックヒル77792
ジュリア9288-4
トール9085-5
マイケル84928
ジーン68691
インドラ74817
スーザン8784-3
アレン647511
ポール718413
エドウィナ8882-6

上の表を見ると、スコアの差のいくつかは正であり、いくつかは負であることがわかります。2つの試験は同じように難しいと思うかもしれません。それに同意しない人もいるでしょう。統計的検定は、判断を下すための共通の方法を提供するため、誰もが同じデータに対しては同じ判断を下すことができます。

データをチェックする

次の項目に答えることから始めます。対応のあるt検定は2つの試験の難易度の違いを評価するための適切な方法でしょうか?

  • 個体は独立しています。各学生は2つの試験を受け自分で解答します。
  • 対応のある測定値はそれぞれ、同じ個体から取得します。各学生は両方の試験を受けます。
  • 差の分布は正規分布です。今のところ、これが真であると仮定します。この点については後で検定を行います。

妥当な分析方法を選択したと判断しました。

分析に入る前に、データをプロットする必要があります。次の図は、スコアの差のヒストグラムと要約統計量を示しています。

図1:試験スコアの差のヒストグラムと要約統計量

ヒストグラムから、非常に異常な点、つまり外れ値がないことがわかります。データはおおよそ釣鐘型をしているので、差が正規分布に従うという考えは妥当であると考えられます。

要約統計量の表から、平均、つまり平均差は1.3であることがわかります。これは、講師が2つの試験が同じくらい難しいと判断するのに「十分なほど近い」のでしょうか。それとも近くはないのでしょうか?

対応のあるt検定の実行方法

対応のあるt検定の原理については、後述の統計学的詳細のセクションでさらに説明しますが、まずは最初から最後まで手順を進めてみましょう。まずは、検定統計量の算出から始めます。計算を行うには、平均差、差の標準偏差、および標本サイズが必要です。これらは上の図1に示されています(以下では、統計量が小数点以下第2位に四捨五入されていることに注意してください。ソフトウェアは通常、より多くの小数点以下の桁数を表示し、それらを計算に使用します)。

平均スコアの差は次のとおりです。

$ \overline{x_d} = 1.31 $

次に、スコアの差の標準誤差を計算します。計算は次のようになります。

$ \text{Standard Error} = \frac{s_d}{\sqrt{n}} = \frac{7.00}{\sqrt{16}}= \frac{7.00}{4}= 1.75 $

上記の計算式で、nは生徒の数であり、差の数です。差の標準偏差はsdです。

これで、検定統計量を得るためのすべての要素が揃いました。検定統計量の計算は次のようになります。

$ t = \dfrac{\text{Average difference}}{\text{Standard Error}} = \frac{1.31}{1.75}= 0.750 $

決定を下すために、検定統計量をt分布の値と比較します。このアクティビティには、次の4つのステップが含まれます。

  1. 差がない場合に、差があると宣言するリスクをどれだけ引き受けるかを決めます。試験スコアのデータでは、実際にはそうではないのに、未知の平均試験スコアの差がゼロであると宣言するリスクを5%取ると決めます。統計用語を用いると、αで表される有意水準を0.05に設定します。この決定は、データを収集する前、および検定統計量を計算する前に行うことが推奨されます。
  2. 検定統計量を計算します。検定統計量は0.750です。
  3. t分布から値を見つけます。ほとんどの統計学の本には、 t分布の早見表があります。オンラインで分布表を見つけることもできます。最もよくある状況は、分析にソフトウェアを使用し、印刷された表を使用しないことです。

    この値を見つけるには、有意水準(α = 0.05)と自由度が必要です。自由度(df)は、標本サイズに基づいています。試験スコアのデータの場合の計算は下記になります。

    $ df = n - 1 = 16 - 1 = 15 $

    α = 0.05かつ自由度15のt値は2.131です。
  4. 統計量(0.750)をt値と比較します。0.750 < 2.131であるため、平均スコアの差がゼロであるという考えを棄却することはできません。以上のことから、2つの試験が同じくらい難しいと言う実際的な結論を出します。

統計の詳細

統計用語を使用して、試験スコアのデータと対応のあるt検定を見てみましょう。

帰無仮説は、母集団で差の平均がゼロであるというものです。帰無仮説は次のように記述されます。

$ H_o:  \mathrm{\mu_d} = 0 $

対立仮説は、母集団で差の平均がゼロではないというものです。これは次のように記述されます。

$ H_o:  \mathrm{\mu_d} \neq 0 $

標準誤差は次のように計算されます。

$ Standard Error = \frac{s_d}{\sqrt{n}} $

この式は、差の標本標準偏差をsdとして、標本サイズをnとして示しています。

検定統計量は次のように計算されます。

$ t = \frac{\mathrm{\mu_d}}{\frac{s}{\sqrt{n}}} $

次に、検定統計量を、選択したα値とデータと同じ自由度をもったt値と比較します。試験スコアのデータの場合、α = 0.05に設定します。自由度(df)は標本サイズに基づいており、次のように計算されます。

$ df = n - 1 = 16 - 1 = 15 $

統計学者は、α = 0.05かつ自由度15のt値を次のように記述します。

$ t_{0.05,15}$

α = 0.05かつ自由度15のt値は2.131です。データとの比較から起こり得る結果が2つあります。

  • 検定統計量はt値よりも小さくなっています。したがって、平均差がゼロであるという仮説を棄却できません。講師による実際的な結論は、2つの試験は同じくらい難しいということです。来年、彼女は両方の試験を使用して、学生の半分に1つの試験を、残りの半分にもう1つの試験を受けてもらうことができます。
  • 検定統計量はt値よりも大きくなっています。したがって、平均差がゼロであるという仮説を棄却します。講師による実際的な結論は、試験は同じくらいの難しさではないということです。彼女はすべての学生に同じ試験を受けてもらう必要があります。

正規性の検定

正規性の仮定は、標本サイズが小さい場合は大きい場合よりも重要です。

正規分布には対称性があります。つまり、中心を挟んで両側が等しくなります。正規分布には、極値や外れ値はありません。正規分布のこの2つの特徴は、グラフで確認することができます。先ほど、試験スコアの差の分布が正規分布に「十分近い」と判断し、正規分布であるという仮定を採用しました。下の図は、データの正規分位点プロットを示しており、私たちの判断を裏付けています。

図2:試験データの正規分位点プロット

ソフトウェアを使用して、正規性の検定を正式に行うこともできます。以下の図3は、JMPを使用した正規性の検定結果を示しています。試験スコアの差の分布を検定します。ここでは、正規分布であるという仮説を棄却することはできません。対応のある検定を用いて、話を進めることができます。

図3:JMPソフトウェアを使用した正規性の検定

データが正規分布していない場合は?

標本サイズが非常に小さい場合、正規性を検定するのは困難です。この状況では、測定値に関する洞察が必要です。例えば、試験スコアのデータの場合、スコアの差の基になる分布が正規分布していることを講師が知っているとします。非常に小さな標本の場合でも、講師は正規分布を仮定して、t検定で話を進めるかもしれません。

基になる測定値が正規分布していないことがわかっている場合はどうでしょうか? または、標本サイズが大きく、正規性の検定が棄却された場合はどうでしょうか? このような状況では、ノンパラメトリック検定を利用できます。このタイプの分析は、データ値が特定の分布からのものであるという仮定に依存しません。対応のあるt­検定の場合、ノンパラメトリック検定はWilcoxonの符号順位検定です。

p値について理解する

可視化することで、検定統計量が分布でより極端な値であるかどうかを確認できます。t分布は、正規分布に似ています。下の図は、自由度15のt分布を示しています。

図4:自由度15のt分布とα = 0.05

検定は両側検定であり、α = 0.05に設定されているため、この図は、2.131の値が2つの裾のそれぞれのデータの2.5%を「カットオフ」することを示しています。全体のデータの5%だけが、2.131よりも裾の外側にあります。

図5は、計算結果がグラフのどこにあるかを示しています。検定統計量(0.75)は「分布の裾の外側」の十分遠くには位置していないため、平均差がゼロであるという仮説を棄却することはできません。

図5:t検定の結果 - 検定統計量は|2.131|よりも小さい

ソフトウェアですべてをまとめる

対応のあるt検定を実際に行うには、ほとんどの場合、ソフトウェアを使用することになります。次の図は、JMPを用いたもので、試験スコアのデータに対する対応のあるt検定の結果を示しています。

図6:JMPソフトウェアを使用した、試験スコアのデータに対する対応のあるt検定の結果

ソフトウェアは、両側検定(Prob > |t|)と片側検定の結果を表示します。両側検定を行いたいとします。帰無仮説は、対応のある試験スコアの平均差がゼロであるというものです。対立仮説は、平均差がゼロに等しくないというものです。

JMPソフトウェアは、両側検定で0.4650のp値を示しています。これは、基になる母集団の平均差がゼロの場合に、1.31以上の標本平均差が見られる可能性が、100回のうち約47回であることを意味します。帰無仮説を棄却しないという判断に信頼をおくことができます。講師は、来年両方の試験を使用する計画を進め、学生の半分に1つの試験を、残りの半分にもう1つの試験を受けてもらうことができます。