單樣本 t 檢定
什麼是單樣本 t 檢定?
單樣本 t 檢定是一種統計假設檢定,用於判斷未知母體的平均數是否非特定值。
何時可以使用此檢定?
您可以使用此檢定處理連續資料。您的資料應為常態母體的隨機樣本。
如果資料並非趨近於常態分佈怎麼辦?
如果您的樣本量非常小,可能無法檢定常態性。您可能需要仰賴自身對資料的理解。當您無法肯定地假設常態性時,可以進行未假設常態性的無母數檢定。
使用單樣本 t 檢定
下列區段探討進行檢定、檢查資料、瞭解測試結果的須知,以及統計詳細資訊。
需要哪些準備?
針對單樣本 t 檢定,我們需要一個變數,
針對檢定,我們也有一個想法或假設,也就是母體的平均數具有特定值。以下舉兩個範例:
- 一間醫院有男性膽固醇測量結果的隨機樣本。這些病患是因為膽固醇以外的問題就醫。他們沒有服用任何治療高膽固醇的藥物。這家醫院希望知道未知的病患膽固醇值平均數是否與目標值 200 mg 不同。
- 我們測量能量棒樣本的蛋白質公克數。標示上寫著此能量棒含 20 公克的蛋白質。我們希望知道該標示是否正確。
單樣本 t 檢定假設
如需進行有效檢定,我們需要以下資料值:
- 獨立資料 (資料值彼此不相關)。
- 連續資料。
- 從母體進行簡單隨機採樣取得的資料。
此外,我們也假設母體為常態分佈。
單樣本 t 檢定範例
試想我們從幾間不同的商店隨機採樣了 31 種能量棒,以代表大眾可購買的能量棒母體樣本。標示上寫著每條能量棒含 20 公克的蛋白質。
表 1:能量棒樣本的蛋白質公克數
能量棒:蛋白質 (克數) | ||||||
---|---|---|---|---|---|---|
20.70 | 27.46 | 22.15 | 19.85 | 21.29 | 24.75 | |
20.75 | 22.91 | 25.34 | 20.33 | 21.54 | 21.08 | |
22.14 | 19.56 | 21.10 | 18.04 | 24.12 | 19.95 | |
19.72 | 18.28 | 16.26 | 17.46 | 20.53 | 22.12 | |
25.06 | 22.44 | 19.08 | 19.88 | 21.39 | 22.33 | 25.79 |
查看上方的表格後,您會發現有些能量棒的蛋白質少於 20 公克,有些能量棒則有更多蛋白質。您可能會認為該資料佐證標示正確,但其他人可能會反對。統計檢定讓我們能用可靠明確的方法做決策,以便所有人都根據相同資料值做決定。
檢查資料
讓我們先來看看這個問題:檢定,t 檢定是適合用來檢查「能量棒是否含 20 公克蛋白質」的方法嗎?以下列出符合檢定條件的需求:
- 資料值必須獨立。一個能量棒中的蛋白質公克數不得受到其他能量棒的蛋白質公克數影響。相依值的範例之一為假如當您從單一製造批次收集能量棒。單一批次的樣本可代表該批次,無法代表全體能量棒。
- 資料值為蛋白質的公克數。測量結果為連續資料。
- 我們假設能量棒為一般消費者可購買之能量棒母體的隨機採樣樣本 (也就是混合多種製造批次的能量棒)。
- 我們假設收集樣本的母體屬於常態分佈,且針對數量較多的樣本,也可以檢查此假設。
根據以上,我們決定 t 檢定為合適檢定這個問題的方法。
在進入分析前,我們應先快速瀏覽資料。下圖是能量棒的直方圖與統計量摘要。
根據直方圖進行粗略判斷,我們可以發現兩者並沒有異常點或離群值。資料大致上呈現鐘形,所以我們的常態分佈假設似乎合理。
快速檢閱統計量,我們可以發現平均值為 21.40,超過 20。這代表我們的 31 個能量棒樣本否定未知母體整體平均數為 20 公克蛋白質的假設嗎?還是並非如此?
如何進行單樣本 t 檢定
我們需要平均值、標準差與樣本量才能進行 t 檢定計算。這些資料顯示在上圖 1 的統計量摘要。
我們將統計量四捨五入至小數點後兩位。軟體會顯示更多小數位數,並於計算中使用。(請注意:表 1 僅顯示小數點後兩位,而實際用來計算統計量摘要的資料則有更多位。)
我們先從尋找樣本平均值與 20 之間的差異開始。
21.40-20 =1.40
接著我們計算平均數的標準誤差。計算方式為:
平均數的標準誤差 = $ \frac{s}{\sqrt{n}}= \frac{2.54}{\sqrt{31}}=0.456 $
結果符合上方圖 1 中的值。
我們現在可以用這些資料進行檢定統計。我們計算統計量的方式為:
$ t = \frac{平均{差異}}{\{標準誤}}= \frac{1.40}{0.456}=3.07 $
為了做決定,我們將檢定統計量與 t 值分佈的值做比較。此操作包含四個步驟:
- 計算檢定統計量。我們的檢定統計量為 3.07。
- 決定我們願意為實際資料沒有差異情形下卻判斷為顯著差異承擔多少風險。針對能量棒資料,當實際上為未知母體平均數不等於 20 ,我們願意為「未知母體平均數不等於 20 」的論述承擔 5% 風險。以統計術語來說,我們將 α 值設為 0.05。實務上,您應該在收集資料前設定您的風險水準 (α)。
我們根據決策從 t 值分佈中找到值。針對 t 檢定,我們需要自由度才能找到值。自由度取決於樣本量。以能量棒的資料來看:
自由度 = $ n - 1 = 31 - 1 = 30 $
因為檢定為雙尾檢定,平均拆分0.05的α 值,且自由度為 30 的關鍵 t 值為 +/- 2.043。大多數統計教材都有查找分佈的表格。您也可以在網路上找到此表格。最有可能的情況是您會使用軟體,而非紙本表格。
我們將統計量值 (3.07) 與 t 值做比較。由於 3.07 > 2.043,我們否定平均蛋白質公克數等於 20 的虛無假設。我們做出標示資訊不正確,且蛋白質公克數的母體實際上平均數大於 20 的結論。
統計詳細資訊
讓我們來看看能量棒資料,以及使用統計術語表示的單樣本 t 檢定。
我們的虛無假設為基礎母體平均數等於 20。虛無假設的寫法為:
$ H_o: \mathrm{\mu} = 20 $
對立假設為基礎母體平均數不等於 20。標示主張蛋白質為 20 公克的資訊不正確。公式寫法為:
$ H_a: \mathrm{\mu} ≠ 20 $
這是雙尾檢定。我們正在檢定母體平均數在兩個方向是否都非 20 公克。如果我們可以否定平均數等於 20 公克的虛無假設,能量棒實際上標示資訊不正確的結論。如果我們無法否定虛無假設,則能得到能量棒實際上標示資訊可能正確的結論。
我們計算各樣本的平均值,再計算母體平均數之間的差異,mu:
$ \overline{x} - \mathrm{\mu} $
標準誤差的計算方式為:
$ \frac{s}{ \sqrt{n}} $
公式表示樣本標準差為 s,而樣本量為 n。
檢定統計量
使用的公式如下:
$ \dfrac{\overline{x} - \mathrm{\mu}} {s / \sqrt{n}} $
我們使用選定的 Alpha 值與資料自由度,比較檢定統計量與 t 值。以能量棒資料為例,我們將 α 值設為0.05。自由度 (df) 取決於樣本量,計算方式為:
$ df = n - 1 = 31 - 1 = 30 $
統計學家將 α 值 = 0.05,且自由度為 30 的 t 值記錄為:
$ t_{0.05,30} $
考慮雙尾檢定,平均拆分0.05的α 值,且自由度為 30 的關鍵 t 值為 +/- 2.042,比較之後可能產生兩種結果:
- 檢定統計量比起關鍵 t 值不極端;換句話說,檢定統計量不小於 -2.042,也不大於 +2.042。您無法否定平均數等於指定值的虛無假設。在我們的範例中,您將無法得出能量棒應該更改標籤資訊的結論。
- 檢定統計量比關鍵 t 值更極端;換句話說,檢定統計量小於 -2.042,或大於 +2.042。您否定平均數等於指定值的虛無假設。在我們的範例中,您得出標籤資訊應該更新,或製造流程應該改善,以製造出平均含 20 公克蛋白質的能量棒。
常態檢定
相較於樣本量較大的情況,樣本量較小時,會更重視常態性假設。
常態分布會對稱分布,也就是說中心的兩端資料是「平均」的。常態分佈沒有極端值或離群值。您可以用圖表檢查常態分佈的這兩項特徵。我們先前已決定能量棒資料「趨近」於常態分佈,因此可以直接假設常態性。下圖為資料的常態分位數圖,可作為我們決定的佐證。
您也可以使用軟體進行常態性的正式檢定。下圖是使用 JMP 軟體進行常態性檢定的結果。我們無法否定常態分佈的假設。
我們可以繼續假設能量棒資料為常態分佈。
如果資料並非常態分佈怎麼辦?
如果您的樣本量非常小,會難以檢定常態性。在此狀況下,您可能需要仰賴自身對測量結果的理解。例如:針對能量棒資料,公司知道蛋白質公克數的潛在分佈為常態分佈。即便樣本量非常小,公司也很可能直接使用 t 檢定並假設常態性。
如果您知道基礎測量資料並非常態分佈呢?或者如果您的樣本量很大,且常態性檢定遭否定呢?在此情況下,您可以使用無母數檢定。無母數分析不會假設資料值屬於特定分佈。針對單樣本 t 檢定,可以使用的無母數檢定為 Wilcoxon 符號檢定。
瞭解 p 值
透過資料視覺化,確認您的檢定統計量是否比分佈中的指定值更極端。下表顯示自由度為 30 的 t 分佈。
由於我們的檢定為雙尾檢定,且 α = 0.05,圖表顯示值 2.042 剛好「截斷」兩端共 5% 的資料。
下圖是我們的結果。您可以看到檢定統計量落在指定關鍵值以上。這遠超過「超出尾端」,足以否定平均數等於 20。
將資料集合在軟體中
您很可能會使用軟體執行 t 檢定。下圖顯示 JMP 軟體的能量棒資料的單樣本 t 檢定結果。
軟體顯示虛無假設值為 20,以及資料的平均數與標準差。檢定統計量為 3.07。這與上述的計算結果相符。
軟體顯示了雙尾檢定與單邊檢定的結果。我們要的是雙尾檢定。我們的虛無假設為蛋白質公克數的平均數等於 20。對立假設為蛋白質公克數的平均數不等於 20。JMP 顯示雙尾檢定的 p 值為 0.0046。
此 p 值說明當母體平均數實際為 20 時,極端值可以達到 21.4 或以上;換句話說,比起我們在樣本中觀察到的平均數,可觀察到不同、或是與 20 差異很大的樣本平均數。p 值為 0.0046 表示在 10,000 次機會中有 46 次會觀察到不同結果。我們可以放心否定母體平均數等於 20 的虛無假設。