「直線のあてはめ」と「多項式のあてはめ」のレポート

Xがまったく同じ値になっているデータ行がある場合には、あてはめられたモデルが正しいかどうかに関係なく、誤差の大きさを推定できます。このような反復（Xが同じ値になっているデータ行）から計算された誤差を純粋誤差（pure error）と言います。純粋誤差は、データの誤差のうち、どのようなモデルを構築しても説明や予測ができない変動を表します。なお、自由度が非常に少ない（反復されているXの行数が少ない）場合は、「あてはまりの悪さ（LOF）」検定はあまり役に立たない可能性があります。

図5.11 直線および多項式のあてはめの「あてはまりの悪さ(LOF)」レポートの例

モデルの残差誤差から、純粋誤差を引いたものを、あてはまりの悪さ（LOF; Lack Of Fit）の誤差といいます。指定したモデルが不適切だと、LOF誤差が純粋誤差よりも有意に大きくなります。その場合は、別のモデルをあてはめるようにしてください。「あてはまりの悪さ(LOF)」レポートには、LOF誤差が0かどうかの検定結果も表示されます。

「あてはまりの悪さ(LOF)」レポートには、次の情報が表示されます。

要因

変動の3つの要因（「あてはまりの悪さ(LOF)」、「純粋誤差」、「合計誤差」）。

自由度

誤差の各要因がもつ自由度（DF）。

–

「合計誤差」の自由度は、「分散分析」レポートの「誤差」の行に表示されている自由度です（第 “「分散分析」レポート”を参照）。この自由度は、データ全体の自由度から、モデルの自由度を引いたものです。「誤差」の自由度は、あてはまりの悪さ（LOF）と純粋誤差の2つの自由度に分けることができます。

–

「純粋誤差」の自由度は、X値が同じである行をグループにまとめ、それぞれのグループの自由度を足し合わせたものです。第 “「あてはまりの悪さ(LOF)」レポート”を参照してください。

–

「あてはまりの悪さ(LOF)」の自由度は、「合計誤差」と「純粋誤差」の自由度の差です。

平方和

誤差の各要因の平方和（SS）。

–

「合計誤差」の平方和は、「分散分析」レポートの「誤差」の行に表示されている平方和です（第 “「分散分析」レポート”を参照）。

–

「純粋誤差」の平方和は、X値が同じである行をグループにまとめ、それぞれのグループの平方和を足し合わせたものです。この平方和は、モデルのX効果ではまったく説明できない、純粋にランダムな誤差の大きさを推定したものです。第 “「あてはまりの悪さ(LOF)」レポート”を参照してください。

–

「あてはまりの悪さ(LOF)」の平方和は、「合計誤差」と「純粋誤差」の平方和の差です。LOFの平方和が大きいときは、モデルがデータに良くあてはまっていない可能性があります。この後で説明する「F値」によって、あてはまりの悪さによって生じる変動が十分に小さいかどうか、つまり、あてはまりの悪さによる変動が純粋誤差の変動に対して無視できる大きさであるかが検定されます。

平均平方

F値

「あてはまりの悪さ(LOF)」の平均平方の、「純粋誤差」の平均平方に対する比。「母集団においてLOF誤差は0である」という帰無仮説を検定します。

p値(Prob > F)

母集団においてLOFに起因する変動が存在しないという仮定のもとで、現在のF値よりも大きなF値を得る確率。p値が大きい場合は、あてはまりの悪さの誤差は有意ではありません。

最大R2乗

モデルに含まれている変数で達成できる最大のR2。第 “「あてはまりの悪さ(LOF)」レポート”を参照してください。

「分散分析」レポート

回帰モデルに対する分散分析表では、標本全体の変動が、いくつかの成分に分割されます。これらの成分は、モデルの有効性を評価する「F値」の計算に使用されます。「F値」に関連する確率（p値）が小さいとき、「そのモデルは、Yの平均だけのモデルよりも、良くあてはまっている」と見なすことができます。

直線および多項式のあてはめの「分散分析」レポートの例は、線形式のあてはめ（［直線のあてはめ］）と2次式のあてはめ（［多項式のあてはめ］）の「分散分析」レポートです。どちらも平均だけのモデルよりも統計的にあてはまりが良いことがわかります。

図5.12 直線および多項式のあてはめの「分散分析」レポートの例

「分散分析」レポートには、次の情報が表示されます。

要因

変動の3つの要因（「モデル」、「誤差」、「全体(修正済み)」）。

自由度

変動の各要因の自由度（DF）。

–

自由度は、非欠測値の標本サイズ（N）から、使用したパラメータ数を引いて求めます。標本全体の変動においては、全体平均を表す1つのパラメータだけが使用されるので、標本サイズから自由度が1つ引かれます。例では、全体の自由度は50となっています。「全体(修正済み)」の自由度は、「モデル」項と「誤差」項に分かれます。

–

「直線のあてはめ」では、切片のパラメータに、傾きのパラメータを1つ追加したモデルが推定されます。分散分析表における「モデル」の自由度は、1です。また、2次の「多項式のあてはめ」では、切片のパラメータに、2つのパラメータ（

と

）を追加したモデルが推定されます。分散分析表における「モデル」の自由度は2となります。

–

「誤差」の自由度は、「全体 (修正済み)」と「モデル」の自由度の差です。

平方和

変動をもたらす各要因の平方和（SS）。

–

直線および多項式のあてはめの「分散分析」レポートの例の例では、各応答から標本平均までの距離の平方和（「全体(修正済み)」）は57,278.157です。これは、基本モデル（単純な平均モデル）の平方和で、その他のモデルとの比較に使用されます。

–

線形回帰においては、各点から直線までの距離の平方和は12,012.733に減少します。これが、線形モデルでは説明できない「誤差」（残差）の平方和です。2次多項式をあてはめると、残差の平方和は6,906.997になり、直線のときよりわずかに多く変動が説明されていることになります。言い換えると、2次多項式の方が、直線よりもモデル平方和が大きくなっており、より多くの変動を説明しています。「全体 (修正済み)」の平方和から「誤差」の平方和を引くと、モデルで説明される平方和が求められます。

平均平方

平方和を関連する自由度で割った値。統計的検定で使用される「F値」は、次に示す2つの平均平方の比です。

–

「直線のあてはめ」の「モデル」平均平方は45,265.4です。この値は、「（切片を除く）すべての回帰パラメータが0である」という仮説のもとでは誤差分散の推定値になります。

–

「誤差」平均平方である245.2は、誤差分散の推定値です。

F値

モデルの平均平方を誤差の平均平方（MSE）で割ったもの。これは、「（切片を除く）すべての回帰パラメータが0である」という帰無仮説を検定します。この仮説が真のとき、「誤差」と「モデル」の平均平方は両方とも誤差分散の推定値となり、その比はF分布に従います。0でないパラメータがある場合、「F値」は通常、帰無仮説が正しいという仮定のもとで期待される値よりも大きくなります。

p値(Prob > F)

真のモデルが平均だけのモデルであった場合に、現在より大きなF値が得られる確率（p値）を表します。有意確率が0.05以下だと、効果がある証拠だと考えられています。

「パラメータ推定値」レポート

「直線のあてはめ」の「パラメータ推定値」レポートには、項として切片とX変数が1つ表示されています。