兩樣本 t 檢定

什麼是雙樣本 t 檢定?

雙樣本 t 檢定 (又稱為獨立樣本 t 檢定) 是一種用於檢定兩個群組的未知母體平均數是否相等的方法。

這是否與 A/B 測試相同?

是的,雙樣本 t 檢定會用於分析 A/B 測試的結果。

何時可以使用此檢定?

當資料值彼此獨立、從兩組常態分佈母體中隨機採樣,且兩個獨立群組擁有相同的變異數時,便可以採用此檢定方法。

如果群組多於兩個呢?

請使用多重比較方法。變異數分析 (ANOVA) 便是此類方法的一種。其他多重比較方法包含適用於所有成對差異的 Tukey-Kramer 檢定、將群組平均數與整體平均數比較的平均數分析 (ANOM) 或將各群組平均數與控制組平均數比較的 Dunnett 檢定。

如果兩個群組的變異數不同怎麼辦?

您仍可以使用雙樣本 t 檢定。但需使用不同的標準差估計值。

如果資料並非趨近於常態分佈怎麼辦?

如果您的樣本量非常小,可能無法檢定常態性。您可能需要仰賴自身對資料的理解。當您無法肯定地假設常態性時,可以進行未假設常態性的無母數檢定

使用雙樣本 t 檢定

下列區段探討進行檢定和檢查資料的須知、進行檢定的方式,以及統計詳細資訊。

需要什麼?

針對兩樣本 t 檢定,我們需要兩個變數,其中一個變數定義兩個群組,第二個變數則用來測量我們所關心的項目。

我們也想知道兩個群體的母體平均數是否相異。以下有幾個範例:

  • 我們有以英語為母語和非英語為母語的學生。所有學生都會進行閱讀測驗。我們的兩個群組分別為英語母語者和非英語母語者,要測量的是測驗分數。我們的想法是,由英語母語者和非英語母語者組成的基礎母體,測驗分數的平均數不會相同。我們想知道母體是英語母語者以及將英語當成第二外語的學習者,兩個群組的平均分數是否不同。
  • 我們測量兩個不同品牌能量棒所含的蛋白質公克數。兩個群體即分別為兩個品牌。我們測量各能量棒的蛋白質公克數。我們的想法是,由兩個品牌能量棒組成的基礎母體,蛋白質含量公克數的平均數可能不同。我們想知道是否有證據能證明:兩個品牌能量棒的蛋白質含量公克數平均數相異或相同。

兩樣本 t 檢定假設

若要進行有效檢定:

  • 資料值必須相互獨立。也就是單一觀察得出的測量結果不會影響其他觀察結論。
  • 我們必須透過母體的隨機採樣觀察各群組資料。
  • 各群組資料為常態分佈。
  • 資料值為連續資料。
  • 兩個獨立群體的變異數相同。

不過,對於非常小的群體資料,可能很難檢定這些要求。以下我們將探討如何使用JMP進行需求檢查,以及未達到要求時該怎麼做。

兩樣本 t 檢定範例

測量一個人體態的其中一種方式,就是測量其體脂率。平均體脂率會因年齡而異,但根據一些原則,男性常態範圍落在 15-20%;女性則為 20-25%。

我們的樣本資料來自一群一週上健身房三次,為期長達一年的男性與女性。教練測量了他們的體脂肪。下表為測量資料。

表 1:按性別分組的體脂率資料

群體體脂肪比例

男性

13.36.020.08.014.0
19.018.025.016.024.0
15.01.015.0  

女性

22.016.021.721.030.0
26.012.023.228.023.0

您可以清楚看到樣本中,男性與女性體脂肪的測量資料有些部分重疊,也有些部分不同。只看資料,很難確實得出結論,瞭解健身房的男性與女性的潛在母體體脂肪平均數是否相同。這就是統計檢定的價值所在,我們可以透過通用、統計上有效的方式做決策,以便所有人都根據相同資料值做決定。

檢查資料

讓我們從回答下列問題開始:兩樣本 t 檢定是否為評估男性與女性體脂肪差異的合適方法?

  • 資料值必須獨立。任何人的體脂肪都不會受到其他人的體脂肪影響。
  • 我們假設接受體脂肪測量的人,是從健身房會員母體採樣的簡單隨機樣本。
  • 我們假設資料為常態分佈,且可以確認此假設。
  • 體脂肪測量資料值必須獨立。測量結果為連續資料。
  • 我們假設男性與女性的變異數相同,且可以確認此假設。

在進入分析前,我們一律都應該先快速瀏覽資料。下圖是男性與女性資料的直方圖與統計資料摘要。

圖 1:體脂肪資料的直方圖與統計資料摘要

兩個直方圖規模相同。粗略判斷,我們可以發現兩者並沒有異常點或離群值。資料大致上呈現鐘形,所以我們的初步想法為常態分佈似乎合理。

檢驗統計資料摘要後,我們發現標準差類似。這佐證了變異數相同的想法。我們接著也可以透過變異數檢定確認此想法。

根據這些觀察,似乎適合用兩樣本 t 檢定方法來檢定平均數差異。

如何進行兩樣本 t 檢定

我們需要各群組的平均值、標準差與樣本量。這些資料顯示於下表。

表 2:按性別分組的平均值、標準差與樣本量統計資料

群體樣本量 (n)平均數 (X 能量棒)標準差 (s)
女性1022.295.32
男性1314.956.84

在未進行任何檢定的狀況下,我們可以看到樣本中的男性與女性平均數並不相同。但有多不相同?這些平均數是否「趨近」,好讓我們能做出結論,認為健身房中大部分男性與女性母體的平均體脂肪相同?或者平均數差異大到不足以支持此結論?

我們將在下方的統計詳細資訊,深入說明兩樣本 t 檢定的基本原則,不過在這之前,必須先瞭解進行兩樣本 t 檢定的步驟。首先,從計算檢定統計量開始。此計算將從找到兩個平均數的差開始:

$ 22.29 - 14.95 = 7.34 $

我們用樣本中的差異估計兩個群組之間的母體平均數差。

接著,我們會計算合併標準差。如此一來,便能建出一個估計整體標準差。此估計值會針對不同群體大小做出調整。首先,我們會計算合併變異數:

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $

$ = \frac{(9\times28.30) + (12\times46.82)}{21} $

$ = \frac{(254.7 + 561.85)}{21} $

$ =\frac{816.55}{21} = 38.88 $

 

接下來,我們會計算合併變異數的平方根來取得合併標準差。也就是:

$ \sqrt{38.88} = 6.24 $

我們現在可以用全部的資料進行檢定統計,包括平均差、合併標準差與樣本量。我們計算檢定統計量的方式如下:

$ t = \frac{\text{群組平均差異}}{\text{差異標準誤差}} = \frac{7.34}{(6.24\times \sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62} = 2.80 $

若要評估平均數之間的差異,以便決定要採用哪個健身計畫,我們必須將檢定統計量與 t 值分佈的理論值做比較。此操作包含四個步驟:

  1. 決定我們願意為主張顯著差異承擔多少風險。針對體脂肪資料,我們決定為在男性與女性未知母體平均數相同的情況下,為主張兩者不相同承擔 5% 風險。以統計術語來說,顯示水準由 α 值決定,將設為 0.05。實務上,在收集資料和計算檢定統計量前做好此決定會比較理想。
  2. 計算檢定統計量。我們的檢定統計量為 2.80。
  3. 根據我們的虛無假設,男性與女性平均數相同,而因此找到 t 值分佈的理論值。大多數統計教材都有查找 t 值分佈的表格。您也可以在網路上找到此表格。最有可能的情況是您會使用軟體,而非紙本表格。

    若要找到此值,我們需要顯示水準 (α = 0.05) 與自由度。自由度 (df) 取決於兩個群組的樣本量。針對體脂肪資料:

    $ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $


    α = 0.05 且自由度為 21 時,考慮雙尾檢定,t 值為+/-  2.080。
  4. 我們將統計量值 (2.80) 與 t 值加以比較。由於 2.80 > 2.080,我們否定男性與女性體脂肪平均數相同的虛無假設,並總結我們有證據證明母體中男性與女性的體脂肪不同。

統計詳細資訊

讓我們來看看體脂肪資料,以及使用統計術語表示的兩樣本 t 檢定。

我們的虛無假設為基礎母體平均數相同。虛無假設的寫法為:

$ H_o:  \mathrm{\mu_1} =\mathrm{\mu_2} $

對立假設為平均數不相等。公式寫法為:

$ H_o:  \mathrm{\mu_1} \neq \mathrm{\mu_2} $

我們計算各群組的平均值,再計算兩個平均值之間的差異。公式寫法為:

$\overline{x_1} -  \overline{x_2} $

我們計算合併標準差。這假設潛在母體的變異數相同。合併變異數公式寫法為:

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

公式表示第一個群組的樣本為 n1,第二個群組則為 n2。兩個群組的標準差為 s1s2。此估計值讓兩個群組能夠擁有不同的觀察數量。合併標準差為變異數的平方根,且寫作 sp

如果兩個群組的樣本數相同怎麼辦?在此情況下,合併變異數估計值就是兩個群組的變異數平均:

$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $

檢定統計量的計算方式為:

$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $

兩個群組平均數的檢定統計資料分子不同。可估計兩個未知母體平均數之間的差異。分母是兩個未知母體平均數之間差異的標準誤差估計值。

技術性細節:針對單一平均數,標準誤差為:$ s/\sqrt{n} $ . 上述公式將此概念延伸至兩個使用合併估計值作為 s (標準差) 的群組,且群組規模可以不同。

接著我們使用選定的 Alpha 值與資料自由度,比較檢定統計資料與 t 值。以體脂肪資料為例,我們將 α 值設為 0.05。自由度 (df) 取決於群組大小,計算方式為:

$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

公式表示第一個群組的樣本量為 n1,第二個群組則為 n2。統計學家將 α 值 = 0.05,且自由度為 21 的 t 值記錄為:

$ t_{0.05,21}$

考慮雙尾檢定,平均拆分0.05的α 值,且自由度為 21 的 T 值為± 2.080。比較之後可能產生兩種結果::

  • 測量統計量介於t值範圍之間。您無法否定平均數相同的假設。您的結論是資料支持男性與女性平均體脂肪相同的假設。
  • 測量統計量介於t值範圍之外。您否定平均數相同的假設。您無法得出男性與女性平均體脂肪相同的結論。

變異數不同的 t 檢定

當兩個群組的變異數不同時,我們無法使用標準差的合併估計值。相反的,我們必須分別處理各群組的標準誤差。檢定統計量為:

$ t = \frac{ (\overline{x_1} -  \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $

檢定統計量的分子相同。差異在於兩個群組的平均數。分母是平均值之間差異整體標準誤差的估計值。計算方式取決於各群組各自的標準誤差。

變異數不同時,t 值的自由度計算方式比變異數相同時複雜,且通常交由統計軟體套件完成。須記住的關鍵在於,如果您無法使用標準差的合併估計值,便也無法使用自由度的簡易公式。

常態性檢定

相較於樣本量較大的情況,樣本量較小時,會更重視常態性假設。

常態分布會對稱分布,也就是說中心的兩端資料是「平均」的。常態分佈沒有極端值或離群值。您可以用圖表檢查常態分佈的這兩項特徵。我們先前已決定體脂肪資料「趨近」於常態分佈,因此可以直接假設為常態。下圖為男性與女性的常態分位數圖,可作為我們決定的佐證。

圖 2:男性與女性體脂肪測量資料的常態分位數圖

您也可以使用軟體進行常態性的正式檢定。上圖是使用 JMP 軟體進行常態性檢定的結果。我們分別檢定各群組。男性與女性的檢定都顯示我們無法否定常態分佈假設。我們可以繼續假設男性與女性的體脂肪資料為常態分佈。

變異數不同的檢定

變異數不同的檢定相當複雜。我們不會詳細說明計算過程,但會提供 JMP 軟體的計算結果。下圖顯示體脂肪資料變異數不同時的檢定結果。

圖 3:檢定體脂肪資料的變異數是否不相等

我們不會深入說明變異數不同時的不同檢定方法,而是會使用 F 檢定。在檢定前,我們決定為在變異數不同時,主張變異數相同承擔 10% 的風險。這表示我們將 α 設為 0.10。

如同大多數統計軟體,JMP 顯示檢定的 p 值。這是我們找到比觀察結果更極端之檢定統計量值的機率。這很難以人工計算。如上圖,F 檢定統計量為 1.654;而 p 值為 0.4561。這比我們的 α 值更大:0.4561 > 0.10。我們無法否定變異數相同的假設。實務上,我們可以繼續運用雙樣本 t 檢定,假設兩個群組的變異數相同。

瞭解 p 值( p-value)

利用資料視覺化,確認您的檢定統計資料是否為分佈中的較極端值。下表顯示自由度為 21 的 t 分佈。

圖 4:自由度為 21、α = .05 的 t 分佈

由於我們使用雙尾檢定,且 α = .05,圖中顯示 2.080 值剛好「分界」兩端各 2.5% 的資料。只有 5% 的整體資料出現在超過 2.080 的那端。因為我們的檢定統計資料 2.80 超過分界點,所以我們否定平均數相同的虛無假設。

將資料集合在軟體中

下圖顯示 JMP 軟體中,體脂肪資料的雙樣本 t 檢定。

圖 5:JMP 軟體的兩樣本 t 檢定結果

假設變異數相同的兩樣本 t 檢定結果與我們先前的計算結果相同。檢定統計資料為 2.79996。軟體顯示了雙尾檢定與單邊檢定的結果。雙尾檢定是我們想使用的方法 (機率 > |t|)。我們的虛無假設為男性與女性的平均體脂肪相同。對立假設為平均體脂肪不相等。單邊對立假設使用單邊檢定,例如:虛無假設認為男性的平均體脂肪低於女性。

我們可以否定兩個群組平均體脂肪相同的假設,並得出我們有證據證明男性與女性母體的體脂肪不同的結論。軟體顯示 p 值為 0.0107。我們決定為在男性與女性平均體脂肪相同時,做出平均體脂肪不相同的結論承擔 5% 的風險。在做統計檢定前就做出此決定非常重要。

圖表也顯示 t 檢定的結果並未假設變異數相等。此檢定未使用標準差的合併估計值。如上所述,此檢定的自由度公式也很複雜。您可以看到自由度為 20.9888。軟體顯示 p 值為 0.0086。同樣,在我們決定的 5% 風險內,我們可以否定男性與女性平均體脂肪相同的虛無假設。

其他主題

如果群組多於兩個呢?

若您有超過兩個獨立群組,則無法使用兩樣本 t 檢定。您應使用多重比較法。變異數分析 (ANOVA) 便是此類方法的一種。其他多重比較方法包含適用於所有成對差異的 Tukey-Kramer 檢定、將群組平均數與整體平均數比較的平均數分析 (ANOM) 或將各群組平均數與控制組平均數比較的 Dunnett 檢定。

如果資料並非常態分佈怎麼辦?

如果您的樣本量非常小,可能難以檢定常態性。在此狀況下,您可能需要仰賴自身對測量結果的理解。例如:針對體脂肪資料,教練知道體脂肪的潛在分佈為常態分佈。即便樣本量非常小,教練也很可能直接使用 t 檢定並假設常態性。

如果您知道基礎測量資料並非常態分佈呢?或者如果您的樣本量很大,且常態性檢定遭否定呢?在此情況下,您可以使用無母數分析。這種類型的分析不會假設資料值屬於特定分佈。針對兩樣本 t 檢定,可以使用的無母數檢定為 Wilcoxon 等級和檢定。