解讀迴歸結果
我們先前已經瞭解如何使用最小平方法來擬合最佳迴歸線。
我們反應值的總變異可以分解成兩大元素:可由模型解釋的變異,以及未解釋的變異或雜訊。
- 總平方和,或稱 SST,用於測量反應變數在平均數附近的變異。針對各觀察,這是反應值與總平均反應的差距。
- 模型平方和,或稱 SSM,用於測量我們模型可以解釋的變異。針對各觀察,這是預測值與總平均反應值之間的差距,也是我們歸因於 X 與 Y 之間關係的變異。請注意有時候會寫為 SSR,或迴歸平方和。
- 殘差平方和,或稱 SSE,用於測量隨機誤差或未解釋的變異。針對各觀察,這是反應值與預測值之間的差距,也是迴歸模型未解釋的變異。又稱為平方和誤差。
我們反應值中的所有變異都可以細分成模型平方和或殘差平方和。
另一種思考平方和的方式為想像直角三角形。總平方和可細分為誤差與模型平方和。比較模型 1 與 2 的平方和,模型 1 中的反應變數比起模型 2 有較多未解釋的總變異數。也就是說,模型 2 比起模型 1 較能解釋反應變數中的總變異數。
變異數分析表格中會回報平方和,此資訊會出現在前一模組中。在迴歸的情況下,此表格提供的 p 值讓我們能瞭解整體檢定對後模型顯著性為何。p 值用於檢定預測因子與反應變數之間沒有關係的假設。換句話說,p 值用於檢定真正斜率為 0 的假設。
針對清潔零件範例,我們擬合了清除與 OD 模型。因為我們的 p 值極小,因此我們可以得到清除與 OD 模型之間具有顯著線性關係的結論。
在簡單線性迴歸的狀況中,變異數分析檢定等同於預測因子參數估計值表格中回報的 t 檢定結果。參數估計值表中的估計值為擬合模型中的係數。正如我們所討論的結果,我們可以直接使用此模型進行預測。
清除 = 4.0989349 + 0.5283959*OD
更精確地來說,我們可以使用模型在觀察到的 OD 值範圍內預測平均清除程度。這一點非常重要。樣本中的 OD 值範圍在 4 到 24.7 之間。務必謹記,若外推超過此範圍可能導致不實際或不可靠的預測。
我們也可以使用模型建立兩種類型的區間:信賴區間與預測區間。信賴區間以信賴曲線呈現,提供預測因子指定值的預測平均數值範圍。請注意,這些區間基本上是我們在擬合 1000 條迴歸線的示範迴歸模擬中觀察到的結果。這些區間代表真實迴歸線估計值的不確定性。
預測區間為在給定預測變數下,我們能夠預期未來觀測值落在的範圍。當我們想要使用模型來預測單一個別的反應變數時,預測區間十分實用。
示範迴歸模擬展示真實斜率估計值,會隨著收集樣本的差異而有所不同。不同樣本之間的斜率可能差異很大。我們的斜率估計值 0.5283 是真實、未知斜率的點估計值。因此我們使用信賴區間提供真實斜率值的範圍。
在我們的範例中,每增加 1 單位的 OD,清除程度平均增加 0.462 至 0.595。
斜率的信賴區間為斜率係數大小提供額外檢定。這可能比 p 值更容易判讀與說明。因為信賴區間不包含 0,所以我們可以得出實際斜率不等於 0 的結論。
其中一種熱門的統計方法為 RSquare,也就是判定係數。RSquare 為反應變數與預測因子之間的線性關係提供強度測量值。在簡單線性迴歸中,RSquare 是相關性係數的平方值 r。
此統計資料落在 0 與 1 之間,會計算有多少百分比的總變異可被此模型解釋。
RSquare 越接近 1,模型能解釋的變異狀況越充足。在我們的範例中,反應變數清潔中有 84.8584% 的變異可透過變數 OD 來解釋。
請注意,RSquare 值可能受到因子數多寡影響,所以有以下幾個注意事項:
- 若重複測量預測因子,RSquare 的可能值上限將小於 1。可期望的結果是重複測量次數越多,會導致RSquare越小。
- 此外,如我們從此相關性係數中所見,嚴重的離群值可能以人工方式膨脹 RSquare。
因此,雖然 RSquare 是實用的測量方法,且通常 RSquare 值越高越好,但是並沒有幫助我們判斷這是否為好模型的 RSquare 截斷值。RSquare 以及類似的測量值:調整後 RSquare,適合用於比較相同資料的不同模型。我們會在複線性迴歸課程中,解釋調整後 RSquare。