发布日期: 08/07/2020

评估变量重要性

随后的详细信息与如何计算变量重要性指标有关。

背景

将代表预测模型的函数表示为 f,并假定 x1, x2, ..., xn 为模型中的因子或主效应。令 y = f(x1, x2 ..., xn)。

y 的期望值 E(y) 通过使用 x1, x2, ..., xn 的联合分布求 y 的积分来定义。

y 的方差 Var(y) 通过使用 x1, x2, ..., xn 的联合分布求 (y – E(y))2 的积分来定义。

主效应

主效应 xj y 的影响可通过 Var(E(y |xj)) 来描述。此处期望值是 x1, x2, ..., xn 的条件分布下给定 xj 时的取值,而方差是在 xj 分布下的取值。换言之,Var(E(y |xj))xj 分布下测量当xj 固定时 y 均值中的变异。

同样,Var(E(y |xj))/Var(y) 之比测量的是 y 对于因子 xj 的灵敏度。“汇总报表”的“主效应”列中的重要性指标是该比率的估计值(请参见抽样变异的调整)。

总效应

“总效应”列表示涉及 xj所有项对y = f(x1, x2 ..., xn) 方差的总贡献。“主效应”的计算取决于函数分解的概念。函数 f 分解为一个常数与各函数(表示单个变量、成对变量等的效应)之和。这些构成函数类似于主效应、交互作用效应和高阶效应。请参见 Saltelli (2002);Sobol (1993)。

这些具有包含 xj 的项的构成函数将被标识出来。对于以上每个函数,都会计算条件预期值的方差。这些方差将被求和。总和表示因包含 xj 的项而对 Var(y) 的总贡献。对于每个 xj,将使用用于生成输入的选定方法估计该总和。“总效应”列中报告的重要性指标即这些估计值(请参见抽样变异的调整)。

考虑一个包含 x1x2 这两个因子的简单示例。x1 的“总效应”重要性指标为以下公式计算得出的估计值:

抽样变异的调整

由于“汇总表”中显示的“主效应”和“总效应”估计值是使用抽样方法获得的,因此这些估计值可能已经过调整。具体而言,若“总效应”估计值小于“主效应”估计值,则“总效应”重要性指标将设置为等于“主效应”估计值。若“主效应”估计值超过 1,则这些估计值的总和将被标准化为 1。

变量重要性标准误差

为独立输入提供的标准误差可测量 Monte Carlo 复制值的准确度。重要性指标计算如下:

拉丁超立方抽样用于生成一组数据值。

对于每组数据值,计算主效应和总效应重要性估计值。

该过程将重复执行,直到所有因子的“主效应”和“总效应”重要性指标的估计标准误差都降低至阈值 0.01 以下。

报告的标准误差是复制终止时的有效标准误差值。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).