本节给出通过得分选项 > 保存公式保存的推导公式。这些公式依赖于判别方法。
对于由分类变量 X 定义的每个组,假定协变量的观测服从 p 维多元正态分布,其中 p 是协变量数。“保存公式”选项给出的公式符号中给出了公式中使用的符号。
t 组中的观测数
n = n1 + n2 + ... + nT
t 中第 i 个观测,它包含 p 个协变量的向量
针对组 t 中的观测,协变量 y 的均值的 1 x p 向量
ybar
估计的第 t 组的组内协方差矩阵 (p x p)
估计的 (p x p) 合并的组内协方差矩阵
qt
t 的成员关系的先验概率
p(t|y)
y 属于组 t 的后验概率
|A|
观测 y 到组 t 的 Mahalanobis 距离按以下方式定义:
观测 y 属于第 t 组的似然函数按以下方式估计:
请注意,必须为合并的协方差矩阵估计的参数数目是 p(p+1)/2,必须为均值估计的参数数目是 Tp。必须估计的参数总数是 p(p+1)/2 + Tp
按以下方式计算组 t 的成员关系的后验概率:
观测 y 被分配给具有最大后验概率的组。
在二次判别分析中,不假定组内协方差矩阵是相等的。组 t 的组内协方差矩阵由 St. 估计。这意味着必须为组内协方差矩阵估计的参数数目是 Tp(p+1)/2,必须为均值估计的参数数目是 Tp。必须估计的参数总数是 Tp(p+3)/2
组样本大小相对于 p 很小时,组内协方差矩阵的估计值倾向于很不稳定。判别得分受组内协方差矩阵的逆矩阵的最小特征值影响很大。请参见 Friedman, 1989。因此,若您的组样本大小相对于 p 来说很小,您可能要考虑正则判别方法中所述的“正则”方法。
请参见“保存公式”选项给出的公式符号 了解相关符号。观测 y 到组 t 的 Mahalanobis 距离按以下方式定义:
观测 y 属于第 t 组的似然函数按以下方式估计:
t 的成员关系的后验概率为:
观测 y 被分配给具有最大后验概率的组。
注意:SqDist[<组 t>] 可为负。
参数 λ 权衡分配给合并的协方差矩阵和组内协方差矩阵(不假定相等)的权重。
参数 γ 确定向对角矩阵的收缩量。
对于正则方法,组 t 的协方差矩阵为:
观测 y 到组 t 的 Mahalanobis 距离按以下方式定义:
观测 y 属于第 t 组的似然函数按以下方式估计:
按以下方式计算组 t 的成员关系的后验概率:
观测 y 被分配给具有最大后验概率的组。
注意:SqDist[<组 t>] 可为负。
当您有很多协变量特别是协变量数超过观测数 (p > n) 时,“宽线性”方法很有用。该方法的核心是高效计算合并的组内协方差矩阵 Sp 的逆矩阵或它的转置矩阵(若 p > n)。它使用奇异值分解方法来避免为大的协方差矩阵反转和分配空间。
请参见“保存公式”选项给出的公式符号 了解相关符号。“宽线性”计算步骤如下所示:
1.
计算组内样本均值的 T x p 矩阵 MM 的第 (t,j) 个元素 mtj 是第 j 个协变量上的组 t 成员的样本均值。
2.
对于每个协变量 j,计算各组的合并标准差。称之为 sjj
3.
Sdiag 表示具有对角元素 sjj 的对角矩阵。
使用符号,对于组 t 中的观测 i,第 j 个协变量的组中心化和统一尺度值为:
符号 t(i) 表示观测 i 所属的组 t
5.
Ys 表示 值的矩阵。
6.
R 表示组中心化和统一尺度的协变量的合并组内协方差矩阵。按以下方式计算矩阵 R
其中 UV 是正交的,D 是对角线上具有正元素(奇异值)的对角矩阵。请参见奇异值分解
R 可以表示为:
8.
R 是满秩的,按以下方式得到 R-1/2
其中 D-1 是对角矩阵,其对角元素为 D 的对角元素的逆。
R 不是满秩的,则按以下方式定义 R 的伪逆矩阵:
然后按以下方式定义 R 的平方根倒数:
9.
R 是满秩的,结果就是 。 因此,为了保持完整性,我们使用伪逆矩阵继续讨论。
按以下方式定义 p x p 的矩阵 Ts
Mahalanobis 距离、似然函数和后验概率的公式与线性判别方法中所述的那些公式相同。 但是,Sp 的逆矩阵由使用奇异值分解计算的广义逆矩阵替代。
当您保存公式时,Mahalanobis 距离以分解的形式给出。对于观测 y,到组 t 的平方距离如下所示,其中最后一个等式中的 SqDist[0] 和 Discrim Prin Comp保存的公式中定义: