兩樣本 t 檢定

Style

section-padding-none

什麼是雙樣本 t 檢定？

雙樣本 t 檢定 (又稱為獨立樣本 t 檢定) 是一種用於檢定兩個群組的未知母體平均數是否相等的方法。

這是否與 A/B 測試相同？

是的，雙樣本 t 檢定會用於分析 A/B 測試的結果。

何時可以使用此檢定？

當資料值彼此獨立、從兩組常態分佈母體中隨機採樣，且兩個獨立群組擁有相同的變異數時，便可以採用此檢定方法。

如果群組多於兩個呢？

請使用多重比較方法。變異數分析 (ANOVA) 便是此類方法的一種。其他多重比較方法包含適用於所有成對差異的 Tukey-Kramer 檢定、將群組平均數與整體平均數比較的平均數分析 (ANOM) 或將各群組平均數與控制組平均數比較的 Dunnett 檢定。

如果兩個群組的變異數不同怎麼辦？

您仍可以使用雙樣本 t 檢定。但需使用不同的標準差估計值。

如果資料並非趨近於常態分佈怎麼辦？

如果您的樣本量非常小，可能無法檢定常態性。您可能需要仰賴自身對資料的理解。當您無法肯定地假設常態性時，可以進行未假設常態性的無母數檢定。

使用雙樣本 t 檢定

下列區段探討進行檢定和檢查資料的須知、進行檢定的方式，以及統計詳細資訊。

需要什麼？

針對兩樣本 t 檢定，我們需要兩個變數，其中一個變數定義兩個群組，第二個變數則用來測量我們所關心的項目。

我們也想知道兩個群體的母體平均數是否相異。以下有幾個範例：

我們有以英語為母語和非英語為母語的學生。所有學生都會進行閱讀測驗。我們的兩個群組分別為英語母語者和非英語母語者，要測量的是測驗分數。我們的想法是，由英語母語者和非英語母語者組成的基礎母體，測驗分數的平均數不會相同。我們想知道母體是英語母語者以及將英語當成第二外語的學習者，兩個群組的平均分數是否不同。
我們測量兩個不同品牌能量棒所含的蛋白質公克數。兩個群體即分別為兩個品牌。我們測量各能量棒的蛋白質公克數。我們的想法是，由兩個品牌能量棒組成的基礎母體，蛋白質含量公克數的平均數可能不同。我們想知道是否有證據能證明：兩個品牌能量棒的蛋白質含量公克數平均數相異或相同。

兩樣本 t 檢定假設

若要進行有效檢定：

資料值必須相互獨立。也就是單一觀察得出的測量結果不會影響其他觀察結論。
我們必須透過母體的隨機採樣觀察各群組資料。
各群組資料為常態分佈。
資料值為連續資料。
兩個獨立群體的變異數相同。

不過，對於非常小的群體資料，可能很難檢定這些要求。以下我們將探討如何使用JMP進行需求檢查，以及未達到要求時該怎麼做。

兩樣本 t 檢定範例

測量一個人體態的其中一種方式，就是測量其體脂率。平均體脂率會因年齡而異，但根據一些原則，男性常態範圍落在 15-20%；女性則為 20-25%。

我們的樣本資料來自一群一週上健身房三次，為期長達一年的男性與女性。教練測量了他們的體脂肪。下表為測量資料。

表 1：按性別分組的體脂率資料

群體	體脂肪比例
男性	13.3	6.0	20.0	8.0	14.0
19.0	18.0	25.0	16.0	24.0
15.0	1.0	15.0
女性	22.0	16.0	21.7	21.0	30.0
26.0	12.0	23.2	28.0	23.0

您可以清楚看到樣本中，男性與女性體脂肪的測量資料有些部分重疊，也有些部分不同。只看資料，很難確實得出結論，瞭解健身房的男性與女性的潛在母體體脂肪平均數是否相同。這就是統計檢定的價值所在，我們可以透過通用、統計上有效的方式做決策，以便所有人都根據相同資料值做決定。

檢查資料

讓我們從回答下列問題開始：兩樣本 t 檢定是否為評估男性與女性體脂肪差異的合適方法？

資料值必須獨立。任何人的體脂肪都不會受到其他人的體脂肪影響。
我們假設接受體脂肪測量的人，是從健身房會員母體採樣的簡單隨機樣本。
我們假設資料為常態分佈，且可以確認此假設。
體脂肪測量資料值必須獨立。測量結果為連續資料。
我們假設男性與女性的變異數相同，且可以確認此假設。

在進入分析前，我們一律都應該先快速瀏覽資料。下圖是男性與女性資料的直方圖與統計資料摘要。

圖 1：體脂肪資料的直方圖與統計資料摘要

兩個直方圖規模相同。粗略判斷，我們可以發現兩者並沒有異常點或離群值。資料大致上呈現鐘形，所以我們的初步想法為常態分佈似乎合理。

檢驗統計資料摘要後，我們發現標準差類似。這佐證了變異數相同的想法。我們接著也可以透過變異數檢定確認此想法。

根據這些觀察，似乎適合用兩樣本 t 檢定方法來檢定平均數差異。

如何進行兩樣本 t 檢定

我們需要各群組的平均值、標準差與樣本量。這些資料顯示於下表。

表 2：按性別分組的平均值、標準差與樣本量統計資料

群體

樣本量 (n)

平均數 (X 能量棒)

標準差 (s)

女性

22.29

5.32

男性

14.95

6.84

在未進行任何檢定的狀況下，我們可以看到樣本中的男性與女性平均數並不相同。但有多不相同？這些平均數是否「趨近」，好讓我們能做出結論，認為健身房中大部分男性與女性母體的平均體脂肪相同？或者平均數差異大到不足以支持此結論？

我們將在下方的統計詳細資訊，深入說明兩樣本 t 檢定的基本原則，不過在這之前，必須先瞭解進行兩樣本 t 檢定的步驟。首先，從計算檢定統計量開始。此計算將從找到兩個平均數的差開始：

$ 22.29 - 14.95 = 7.34 $

我們用樣本中的差異估計兩個群組之間的母體平均數差。

接著，我們會計算合併標準差。如此一來，便能建出一個估計整體標準差。此估計值會針對不同群體大小做出調整。首先，我們會計算合併變異數：

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $

$ = \frac{(9\times28.30) + (12\times46.82)}{21} $

$ = \frac{(254.7 + 561.85)}{21} $

$ =\frac{816.55}{21} = 38.88 $

接下來，我們會計算合併變異數的平方根來取得合併標準差。也就是：

$ \sqrt{38.88} = 6.24 $

我們現在可以用全部的資料進行檢定統計，包括平均差、合併標準差與樣本量。我們計算檢定統計量的方式如下：

$ t = \frac{\text{群組平均差異}}{\text{差異標準誤差}} = \frac{7.34}{(6.24\times \sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62} = 2.80 $

若要評估平均數之間的差異，以便決定要採用哪個健身計畫，我們必須將檢定統計量與 t 值分佈的理論值做比較。此操作包含四個步驟：

決定我們願意為主張顯著差異承擔多少風險。針對體脂肪資料，我們決定為在男性與女性未知母體平均數相同的情況下，為主張兩者不相同承擔 5% 風險。以統計術語來說，顯示水準由 α 值決定，將設為 0.05。實務上，在收集資料和計算檢定統計量前做好此決定會比較理想。
計算檢定統計量。我們的檢定統計量為 2.80。
根據我們的虛無假設，男性與女性平均數相同，而因此找到 t 值分佈的理論值。大多數統計教材都有查找 t 值分佈的表格。您也可以在網路上找到此表格。最有可能的情況是您會使用軟體，而非紙本表格。

若要找到此值，我們需要顯示水準 (α = 0.05) 與自由度。自由度 (df) 取決於兩個群組的樣本量。針對體脂肪資料：

$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

α = 0.05 且自由度為 21 時，考慮雙尾檢定，t 值為+/- 2.080。
我們將統計量值 (2.80) 與 t 值加以比較。由於 2.80 > 2.080，我們否定男性與女性體脂肪平均數相同的虛無假設，並總結我們有證據證明母體中男性與女性的體脂肪不同。

統計詳細資訊

讓我們來看看體脂肪資料，以及使用統計術語表示的兩樣本 t 檢定。

我們的虛無假設為基礎母體平均數相同。虛無假設的寫法為：

$ H_o: \mathrm{\mu_1} =\mathrm{\mu_2} $

對立假設為平均數不相等。公式寫法為：

$ H_o: \mathrm{\mu_1} \neq \mathrm{\mu_2} $

我們計算各群組的平均值，再計算兩個平均值之間的差異。公式寫法為：

$\overline{x_1} - \overline{x_2} $

我們計算合併標準差。這假設潛在母體的變異數相同。合併變異數公式寫法為：

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

公式表示第一個群組的樣本為 n₁，第二個群組則為 n₂。兩個群組的標準差為 s₁ 與 s₂。此估計值讓兩個群組能夠擁有不同的觀察數量。合併標準差為變異數的平方根，且寫作 s_p。

如果兩個群組的樣本數相同怎麼辦？在此情況下，合併變異數估計值就是兩個群組的變異數平均：

$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $

檢定統計量的計算方式為：

$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $

兩個群組平均數的檢定統計資料分子不同。可估計兩個未知母體平均數之間的差異。分母是兩個未知母體平均數之間差異的標準誤差估計值。

技術性細節：針對單一平均數，標準誤差為：$ s/\sqrt{n} $ . 上述公式將此概念延伸至兩個使用合併估計值作為 s (標準差) 的群組，且群組規模可以不同。

接著我們使用選定的 Alpha 值與資料自由度，比較檢定統計資料與 t 值。以體脂肪資料為例，我們將 α 值設為 0.05。自由度 (df) 取決於群組大小，計算方式為：

$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

公式表示第一個群組的樣本量為 n₁，第二個群組則為 n₂。統計學家將 α 值 = 0.05，且自由度為 21 的 t 值記錄為：

$ t_{0.05,21}$

考慮雙尾檢定，平均拆分0.05的α 值，且自由度為 21 的 T 值為± 2.080。比較之後可能產生兩種結果：：

測量統計量介於t值範圍之間。您無法否定平均數相同的假設。您的結論是資料支持男性與女性平均體脂肪相同的假設。
測量統計量介於t值範圍之外。您否定平均數相同的假設。您無法得出男性與女性平均體脂肪相同的結論。

變異數不同的 t 檢定

當兩個群組的變異數不同時，我們無法使用標準差的合併估計值。相反的，我們必須分別處理各群組的標準誤差。檢定統計量為：

$ t = \frac{ (\overline{x_1} - \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $

檢定統計量的分子相同。差異在於兩個群組的平均數。分母是平均值之間差異整體標準誤差的估計值。計算方式取決於各群組各自的標準誤差。

變異數不同時，t 值的自由度計算方式比變異數相同時複雜，且通常交由統計軟體套件完成。須記住的關鍵在於，如果您無法使用標準差的合併估計值，便也無法使用自由度的簡易公式。

常態性檢定

相較於樣本量較大的情況，樣本量較小時，會更重視常態性假設。

常態分布會對稱分布，也就是說中心的兩端資料是「平均」的。常態分佈沒有極端值或離群值。您可以用圖表檢查常態分佈的這兩項特徵。我們先前已決定體脂肪資料「趨近」於常態分佈，因此可以直接假設為常態。下圖為男性與女性的常態分位數圖，可作為我們決定的佐證。

圖 2：男性與女性體脂肪測量資料的常態分位數圖

您也可以使用軟體進行常態性的正式檢定。上圖是使用 JMP 軟體進行常態性檢定的結果。我們分別檢定各群組。男性與女性的檢定都顯示我們無法否定常態分佈假設。我們可以繼續假設男性與女性的體脂肪資料為常態分佈。

變異數不同的檢定

變異數不同的檢定相當複雜。我們不會詳細說明計算過程，但會提供 JMP 軟體的計算結果。下圖顯示體脂肪資料變異數不同時的檢定結果。

圖 3：檢定體脂肪資料的變異數是否不相等

我們不會深入說明變異數不同時的不同檢定方法，而是會使用 F 檢定。在檢定前，我們決定為在變異數不同時，主張變異數相同承擔 10% 的風險。這表示我們將 α 設為 0.10。

如同大多數統計軟體，JMP 顯示檢定的 p 值。這是我們找到比觀察結果更極端之檢定統計量值的機率。這很難以人工計算。如上圖，F 檢定統計量為 1.654；而 p 值為 0.4561。這比我們的 α 值更大：0.4561 > 0.10。我們無法否定變異數相同的假設。實務上，我們可以繼續運用雙樣本 t 檢定，假設兩個群組的變異數相同。

瞭解 p 值( p-value)

利用資料視覺化，確認您的檢定統計資料是否為分佈中的較極端值。下表顯示自由度為 21 的 t 分佈。

圖 4：自由度為 21、α = .05 的 t 分佈

由於我們使用雙尾檢定，且 α = .05，圖中顯示 2.080 值剛好「分界」兩端各 2.5% 的資料。只有 5% 的整體資料出現在超過 2.080 的那端。因為我們的檢定統計資料 2.80 超過分界點，所以我們否定平均數相同的虛無假設。

將資料集合在軟體中

下圖顯示 JMP 軟體中，體脂肪資料的雙樣本 t 檢定。

圖 5：JMP 軟體的兩樣本 t 檢定結果

假設變異數相同的兩樣本 t 檢定結果與我們先前的計算結果相同。檢定統計資料為 2.79996。軟體顯示了雙尾檢定與單邊檢定的結果。雙尾檢定是我們想使用的方法 (機率 > |t|)。我們的虛無假設為男性與女性的平均體脂肪相同。對立假設為平均體脂肪不相等。單邊對立假設使用單邊檢定，例如：虛無假設認為男性的平均體脂肪低於女性。

我們可以否定兩個群組平均體脂肪相同的假設，並得出我們有證據證明男性與女性母體的體脂肪不同的結論。軟體顯示 p 值為 0.0107。我們決定為在男性與女性平均體脂肪相同時，做出平均體脂肪不相同的結論承擔 5% 的風險。在做統計檢定前就做出此決定非常重要。

圖表也顯示 t 檢定的結果並未假設變異數相等。此檢定未使用標準差的合併估計值。如上所述，此檢定的自由度公式也很複雜。您可以看到自由度為 20.9888。軟體顯示 p 值為 0.0086。同樣，在我們決定的 5% 風險內，我們可以否定男性與女性平均體脂肪相同的虛無假設。

其他主題

如果群組多於兩個呢？

若您有超過兩個獨立群組，則無法使用兩樣本 t 檢定。您應使用多重比較法。變異數分析 (ANOVA) 便是此類方法的一種。其他多重比較方法包含適用於所有成對差異的 Tukey-Kramer 檢定、將群組平均數與整體平均數比較的平均數分析 (ANOM) 或將各群組平均數與控制組平均數比較的 Dunnett 檢定。

如果資料並非常態分佈怎麼辦？

如果您的樣本量非常小，可能難以檢定常態性。在此狀況下，您可能需要仰賴自身對測量結果的理解。例如：針對體脂肪資料，教練知道體脂肪的潛在分佈為常態分佈。即便樣本量非常小，教練也很可能直接使用 t 檢定並假設常態性。

如果您知道基礎測量資料並非常態分佈呢？或者如果您的樣本量很大，且常態性檢定遭否定呢？在此情況下，您可以使用無母數分析。這種類型的分析不會假設資料值屬於特定分佈。針對兩樣本 t 檢定，可以使用的無母數檢定為 Wilcoxon 等級和檢定。

layout

2 column

Style

columns-75-25, section-top-padding-xsmall