ここでは、[スコアオプション]>[計算式の保存]で保存される計算式について説明します。計算式は判別法によって異なります。
カテゴリカル変数Xによって定義される各グループについて、共変量のオブザベーションは、p次(pは共変量の数)の多変量正規分布に従うと仮定されます。計算式で使用される記号は、[計算式の保存]で保存される計算式の記号のとおりです。
nt
グループt内のオブザベーション数
n = n1 + n2 + ... + nT
p個の共変量のベクトルで構成される、グループtにおけるi番目のオブザベーション
グループtにおける共変量yの平均を示すp x 1ベクトル
ybar
グループtにおける群内共分散行列。p x pの行列。
qt
グループtに属する事前確率
p(t|y)
yがグループtに属する事後確率
|A|
オブザベーションyからグループtへのMahalanobisの距離は、次のように定義されます。
グループt内のオブザベーションyの尤度は、次のように求められます。
推定されるパラメータの個数は、プールした共分散行列におけるp(p+1)/2個と、平均ベクトルにおけるTp個です。よって、線形判別分析において推定されるパラメータの総数は、p(p+1)/2 + Tp個です。
グループtに属する事後確率は、次のように求められます。
オブザベーションyは、事後確率の値が最も大きいグループに割り当てられます。
2次判別法では、「グループごとに群内共分散行列が異なる」と仮定されます。グループtにおける群内共分散行列は、Stと推定されます。 つまり、推定されるパラメータの個数は、群内共分散行列におけるTp(p+1)/2個と、平均ベクトルにおけるTp個です。よって、2次判別分析において推定されるパラメータの総数は、Tp(p+3)/2個です。
グループの標本サイズがpと比べて小さい場合、群内共分散行列の推定値はかなり不安定になります。そして、判別スコアは、群内共分散行列の逆行列における最小固有値から大きな影響を受けます。Friedman(1989)を参照してください。そのため、グループの標本サイズがpに比べて小さい場合は、第 “正則化判別法”で説明されている正則化判別法を用いることを検討してください。
以下の式で用いている記号については、[計算式の保存]で保存される計算式の記号を参照してください。オブザベーションyからグループtへのMahalanobisの距離は、次のように定義されます。
グループt内のオブザベーションyの尤度の推定値は、次のように求められます。
グループtに属する事後確率は、次のように求められます。
オブザベーションyは、事後確率の値が最も大きいグループに割り当てられます。
メモ: SqDist[<group t>]は負になる場合もあります。
正則化判別法では、λγの2つのパラメータを使用します。
パラメータλは、プールして計算された群内共分散行列と、(グループごとに異なると仮定されて)各グループごとに計算された群内共分散行列との重みのバランスを取ります。
パラメータγは、対角行列への縮小の度合いを決定します。
正則化判別法の場合、グループtの共分散行列は次のように求められます。
オブザベーションyからグループtへのMahalanobisの距離は、次のように定義されます。
グループt内のオブザベーションyの尤度の推定値は、次のように求められます。
グループtに属する事後確率は、次のように求められます。
オブザベーションyは、事後確率の値が最も大きいグループに割り当てられます。
メモ: SqDist[<group t>]は負になる場合もあります。
[線形 横長データ]オプションによって実行される判別法は、共変量の個数が多い場合、特に、共変量の個数がオブザベーション数より多い場合(p > n)に役立ちます。この手法では、プールした群内共分散行列Spの逆行列やその転置行列を、p > nの場合に計算負荷がない方式で計算します。特異値分解によって、大規模な共分散行列の逆行列を計算することを回避します。
以下の式で用いている記号については、[計算式の保存]で保存される計算式の記号を参照してください。[線形 横長データ]の判別法は、以下の手順で算出されています。
1.
各グループの標本平均を含んだ、T x p行列Mを計算します。Mの(t,j)番目の要素mtjは、グループtにおける、j番目の共変量の標本平均です。
2.
各共変量jについて、グループ全体のプールした標準偏差を計算します。これを、sjjとします。
3.
対角要素sjjを持つ対角行列をSdiagとします。
これを式で表すと、グループtに属するオブザベーションiの、j番目の共変量を標準化した値は、次式のようになります。
この式で、t(i)は、オブザベーションiが属するグループtを示します。
5.
の値の行列をYsとします。
6.
7.
Ysを特異値分解します。
ここで、UVの各ベクトルは、正規直交しています。また、Dは、対角要素が正の特異値となっている対角行列です。 「統計的詳細」の付録「特異値分解」(279ページ)を参照してください。
Rは次のように表せます。
8.
Rがフルランクの場合には、R-1/2は次のように表せます。
この式で、D-1は、Dの対角要素の逆数を対角要素にもつ対角行列です。
Rがフルランクではない場合、Rの疑似逆行列は次のように定義されます。
これにより、Rの平方根の逆数に相当する行列を、次のように定義します。
9.
R がフルランクの場合には、 R- = R-1 です。そこで、どのような場合でも式が使えるように、常に疑似逆行列を使用します。
ここでp x pの行列Tsを次のように定義します。
この式で、S-pは、元データのプールされた群内共分散行列の一般化逆行列です。これは上式により、特異値分解で計算されます。
Mahalanobisの距離、尤度、および事後確率の計算式は、第 “線形判別法”と同じです。ただし、Spの逆行列には、特異値分解によって算出された一般化逆行列が使われます。
計算式を保存すると、Mahalanobisの距離は分解によって求められます。オブザベーションyのグループtまでの距離は、次のようにして求められます。最後の等式におけるSqDist[0]と Discrim Prin Comp(「判別主成分」)は、第 “保存される計算式”で定義されているものです。
第 “線形判別法”を参照してください。