簡單線性迴歸

什麼是簡單線性迴歸？

簡單線性迴歸用於建立兩個連續變數關係的模型。通常目標是根據輸入 (或預測因子) 變數值預測輸出 (或反應) 變數值。

何時該使用迴歸

我們通常會對於多個變數之間的關係感興趣。散佈圖與散佈圖矩陣可用於探索兩兩變數的潛在關係。相關性有助我們測量兩兩變數之間的線性關聯，但無法告訴我們其背後更複雜的關係。例如：若關係為曲線，相關性可能趨近於 0。

您可以使用迴歸分析來更正式地瞭解變數間的關係。在迴歸分析以及建立統計模型方面，我們希望為輸出變數或反應變數，以及一個或多個輸入變數或因子之間的關係建立模型。

根據背景資訊，輸出變數很可能被視為相依變數、結果，或單純為 Y 變數；而輸入變數則可能為解釋變數、效應、預測因子或 X 變數。

我們可以使用迴歸分析與迴歸模型的結果，判斷哪些變數對反應有效果，或有助於解釋反應。這又稱為解釋模型。

我們也可以使用迴歸分析，根據重要預測因子的值來預測反應變數值。這通常稱為預測模型。或者，我們也可以使用迴歸模型進行最佳化，判斷最佳化反應的因子配置。我們的最佳化目標為尋找能導向最大反應或最小反應的配置。或者目標可能是達到特定可接受區間內的目標。

舉例來說，我們可能想試圖改善製程產量。

我們可以使用迴歸分析來判斷哪些變數可促成高產量。
我們可能有興趣根據預測因子的指定值，為未來的製作流程預測產量，或者
我們可能想找出能促成最佳產量的因子配置。

我們也可能運用從迴歸模型取得的知識來設計實驗，以調整製程知識，並促進改善。

線性迴歸範例

以我們想清潔金屬零件的範例來說明。

我們有 50 個內部直徑、外部直徑與寬度不同的零件。各零件會使用三種類型的容器之一進行清潔。我們透過零件上的懸浮微粒測量清潔效果，並在零件接受清潔前後測量。我們想瞭解的反應是清潔力。這是清潔前與清潔後測量結果的差異。

我們想瞭解內部直徑、外部直徑、零件寬度與容器類型對於清潔度的影響，但我們也想瞭解這些效應的本質。用來連結預測因子與反應的關係為統計模型，或者更明確來說，是一個迴歸模型。

迴歸一詞說明一系列用於將反應建立為預測因子函數模型的技術。我們在此討論中唯一考慮的迴歸模型為線性模型。

下方為清潔資料的線性模型範例。

在此模型中，若外部直徑增加 1 單位，而寬度固定，清潔程度會增加 1.2 單位。同樣的，若零件寬度增加 1 單位，而外部直徑固定，清潔程度會增加 0.2 單位。此模型讓我們能夠預測指定外部直徑與寬度零件的懸浮微粒清潔程度。

例如：外部直徑為 5，寬度為 3 的零件，預測清潔程度為 16.6 單位。在此範例中，我們有兩個連續預測因子。當使用不只一個預測因子時，此流程稱為多重線性迴歸。

只使用一個連續預測因子時，我們將此模型流程稱為簡單線性迴歸。在此討論中剩下的部分，我們將聚焦於簡單線性迴歸。

散佈圖顯示，清潔程度與 OD (外部直徑) 有強烈的正向關係。為了瞭解是否能以 OD 作為估計清潔程度的預測因子，我們擬合了一條迴歸線。擬合線估計指定固定 OD 值零件的懸浮微粒清潔程度平均數。截距值為 4.099，而斜率係數則為 0.528。截距是迴歸線的錨點，估計當外部直徑為 0 時的清潔程度。因為直徑不能為 0，所以該截距並非我們直接想瞭解的資訊。

斜率係數會估計外部直徑增加 1 單位時，清潔程度平均增加的量。也就是說，外部直徑每增加 1 單位，清潔程度平均就會增加 0.528 單位。

簡單線性迴歸模型

在上述範例中，我們收集了 50 個零件的資料。我們擬合迴歸模型，將清除當成零件的 OD 函數進行預測。然而，若我們已採樣不同的 50 組零件，並使用這些資料擬合迴歸線了呢？這會產生相同的迴歸方程式嗎？擬合迴歸線來觀察資料時，我們的目的是嘗試預測變數之間真正的未知關係。擬合迴歸方程式只是估計真實線性模型的一種方法。事實上，真正的線性模型為未知。