本例为包含六个预测变量的计数响应构建多个预测模型。该计数响应使用 Poisson 分布建模。四个预测模型分别为 Lasso、弹性网络、自适应 Lasso 和自适应弹性网络。使用“广义回归”中的“模型比较”报表将四个预测模型相互比较,以及与最大似然模型进行比较,以选择最终模型。
1. 选择帮助 > 样本数据文件夹,然后打开 Liver Cancer.jmp。
2. 选择分析 > 拟合模型。
3. 从“选择列”列表中选择结节计数,然后点击 Y。
4. 从 BMI 一直选到黄疸,然后点击宏 > 析因次数。
这会将最高达到 2 次(次数框中的默认值)的所有项都添加到模型中。
5. 从“选择列”列表中选择验证,然后点击验证。
6. 从“特质”列表中选择广义回归。
7. 从“分布”列表中选择 Poisson。
8. 点击运行。
显示的“广义回归”报表包含“模型比较”报表、“模型启动”控制面板和一个“使用‘验证列’验证的‘Poisson 最大似然’”报表。请注意,默认估计方法是“Lasso”。
拟合 Lasso 模型
9. 点击执行。
拟合弹性网络模型
10. 滚动至报表窗口的顶部并打开“模型启动”分级显示项。
11. 选择弹性网络作为“估计方法”。
12. 点击执行。
拟合自适应 Lasso 模型
13. 滚动至报表窗口的顶部并打开“模型启动”分级显示项。
14. 选择 Lasso 作为“估计方法”。
15. 选择自适应框。
16. 点击执行。
拟合自适应弹性网络模型
17. 滚动至报表窗口的顶部并打开“模型启动”分级显示项。
18. 选择弹性网络作为“估计方法”。
注意:确认仍从以前的模型中选中“自适应”框。
19. 点击执行。
比较模型
20. 滚动至报表窗口的顶部。
21. 点击“模型比较”表中的“验证广义 R 方”列标题。
图 7.8 模型比较报表
“模型比较”表现在按“验证广义 R 方”值的升序排序。这些 R 方值代表各模型拟合验证集的好坏程度。“最大似然”模型的“验证广义 R 方” 负值指示该模型过度拟合。惩罚方法拟合验证数据的效果全都比“最大似然”模型好。没有一个惩罚模型与验证数据拟合得特别好,但自适应方法比非自适应方法拟合效果更好。由于“自适应弹性网络”模型对验证数据拟合效果最佳,您决定将其用于预测。
22. 取消选中除“自适应弹性网络”行对应的框之外的“显示”下方的所有其他框。
23. 点击“使用‘验证列’验证的 Poisson 自适应‘弹性网络’”旁边的红色小三角,然后选择选择非零项。
图 7.9 突出显示了非零项的自适应弹性网络拟合的解路径
自适应弹性网络模型中的非零项是在“解路径”和“参数估计值”表中选择的。
此时,您可以使用该模型进行预测,也可以打开“预测刻画器”来进一步探究参数对响应变量的影响。