解讀迴歸結果

Style

section-padding-none

我們先前已經瞭解如何使用最小平方法來擬合最佳迴歸線。

我們反應值的總變異可以分解成兩大元素：可由模型解釋的變異，以及未解釋的變異或雜訊。

總平方和，或稱 SST，用於測量反應變數在平均數附近的變異。針對各觀察，這是反應值與總平均反應的差距。
模型平方和，或稱 SSM，用於測量我們模型可以解釋的變異。針對各觀察，這是預測值與總平均反應值之間的差距，也是我們歸因於 X 與 Y 之間關係的變異。請注意有時候會寫為 SSR，或迴歸平方和。
殘差平方和，或稱 SSE，用於測量隨機誤差或未解釋的變異。針對各觀察，這是反應值與預測值之間的差距，也是迴歸模型未解釋的變異。又稱為平方和誤差。

我們反應值中的所有變異都可以細分成模型平方和或殘差平方和。

另一種思考平方和的方式為想像直角三角形。總平方和可細分為誤差與模型平方和。比較模型 1 與 2 的平方和，模型 1 中的反應變數比起模型 2 有較多未解釋的總變異數。也就是說，模型 2 比起模型 1 較能解釋反應變數中的總變異數。

變異數分析表格中會回報平方和，此資訊會出現在前一模組中。在迴歸的情況下，此表格提供的 p 值讓我們能瞭解整體檢定對後模型顯著性為何。p 值用於檢定預測因子與反應變數之間沒有關係的假設。換句話說，p 值用於檢定真正斜率為 0 的假設。

針對清潔零件範例，我們擬合了清除與 OD 模型。因為我們的 p 值極小，因此我們可以得到清除與 OD 模型之間具有顯著線性關係的結論。

在簡單線性迴歸的狀況中，變異數分析檢定等同於預測因子參數估計值表格中回報的 t 檢定結果。參數估計值表中的估計值為擬合模型中的係數。正如我們所討論的結果，我們可以直接使用此模型進行預測。

清除 = 4.0989349 + 0.5283959*OD

更精確地來說，我們可以使用模型在觀察到的 OD 值範圍內預測平均清除程度。這一點非常重要。樣本中的 OD 值範圍在 4 到 24.7 之間。務必謹記，若外推超過此範圍可能導致不實際或不可靠的預測。

我們也可以使用模型建立兩種類型的區間：信賴區間與預測區間。信賴區間以信賴曲線呈現，提供預測因子指定值的預測平均數值範圍。請注意，這些區間基本上是我們在擬合 1000 條迴歸線的示範迴歸模擬中觀察到的結果。這些區間代表真實迴歸線估計值的不確定性。

預測區間為在給定預測變數下，我們能夠預期未來觀測值落在的範圍。當我們想要使用模型來預測單一個別的反應變數時，預測區間十分實用。

示範迴歸模擬展示真實斜率估計值，會隨著收集樣本的差異而有所不同。不同樣本之間的斜率可能差異很大。我們的斜率估計值 0.5283 是真實、未知斜率的點估計值。因此我們使用信賴區間提供真實斜率值的範圍。

在我們的範例中，每增加 1 單位的 OD，清除程度平均增加 0.462 至 0.595。

斜率的信賴區間為斜率係數大小提供額外檢定。這可能比 p 值更容易判讀與說明。因為信賴區間不包含 0，所以我們可以得出實際斜率不等於 0 的結論。

其中一種熱門的統計方法為 RSquare，也就是判定係數。RSquare 為反應變數與預測因子之間的線性關係提供強度測量值。在簡單線性迴歸中，RSquare 是相關性係數的平方值 r。

此統計資料落在 0 與 1 之間，會計算有多少百分比的總變異可被此模型解釋。

RSquare 越接近 1，模型能解釋的變異狀況越充足。在我們的範例中，反應變數清潔中有 84.8584% 的變異可透過變數 OD 來解釋。

請注意，RSquare 值可能受到因子數多寡影響，所以有以下幾個注意事項：

若重複測量預測因子，RSquare 的可能值上限將小於 1。可期望的結果是重複測量次數越多，會導致RSquare越小。
此外，如我們從此相關性係數中所見，嚴重的離群值可能以人工方式膨脹 RSquare。

因此，雖然 RSquare 是實用的測量方法，且通常 RSquare 值越高越好，但是並沒有幫助我們判斷這是否為好模型的 RSquare 截斷值。RSquare 以及類似的測量值：調整後 RSquare，適合用於比較相同資料的不同模型。我們會在複線性迴歸課程中，解釋調整後 RSquare。

layout

2 column

Style

columns-75-25, section-top-padding-xsmall