预测和专业建模 > 建模工具 > “探索缺失值”实用工具 > “探索缺失值”实用工具的示例
发布日期: 04/13/2021

“探索缺失值”实用工具的示例

Arrhythmia.jmp 样本数据表包含来自 452 位患者的心电图 (ECG) 信息。最初收集数据是为了将不同模式的 ECG 归类为心率不齐。不过,该数据表中有缺失值。您主要关注的是探索这些缺失值并在必要时进行插补。由于您仅为建模类型为“连续”的列执行了缺失值插补,所以您需要在两个阶段中执行分析。

检查缺失值

1. 选择帮助 > 样本数据库,然后打开 Arrhythmia.jmp

2. 选择分析 > 筛选 > 探索缺失值

3. 选择所有列(共计 280 个)并点击 Y,列

4. 点击确定。选中仅显示带缺失值的列复选框。

图 20.11 “缺失值”报表 

Missing Value Report

Figure 20.11中所示的“缺失列”报表指示只有五列有缺失数据。在总共 452 行中,列 J 有 376 个缺失值。因为它在很大程度上是缺失的,插补值可能不会生成有意义的分析。对于此类数据,您可以在支持“信息性缺失”选项的平台中使用列 J 的“信息性缺失”选项来探索模型。

请注意,两个“插补”选项 —“多元插补”和“多元 SVD 插补”并未显示。有一条消息指示插补已被禁用,因为分析中包括的某些列是分类列。该数据表包含的若干列是数值列,但建模类型是名义型。这些均不可用于插补。

插补缺失值

包含缺失值的五列是连续列。您继续使用针对数据表中的连续列的多元插补来插补除列 J 外的四列的值。通过这样操作,您默认假定:值缺失的概率仅依赖于连续变量的值而不依赖于排除的名义型变量的值。要执行这个新分析,您需要再次启动“探索缺失值”实用工具。

1. 选择分析 > 筛选 > 探索缺失值

2. 在启动窗口中,点击 280 列旁边的红色小三角。

使用列过滤器菜单仅查看“选择列”列表中建模类型为“连续”的列。

3. 选择建模类型 > 全部取消选中

这将从“选择列”列表中删除所有列。

4. 选择建模类型 > 连续

“选择列”列表现在仅包含 207 个“连续”列。

5. 选择全部 207 列。然后在按住 Ctrl 键的同时点击 J 列(将其取消选定),然后点击 Y,列

6. 点击确定

7. 点击多元正态插补

随即显示一个窗口,询问您是否要对协方差使用收缩估计量。

8. 点击是,收缩

随即显示一条 JMP 警示,提醒您应该使用另存为命令保留原始数据。

9. 点击确定

图 20.12 插补报表 

Imputation Report

“插补报表”指示插补了多少缺失值以及具体的插补详细信息。曾经包含缺失值的四列中不再留有任何缺失数据。

启动“探索缺失值”实用工具

通过选择分析 > 筛选 > 探索缺失值启动“探索缺失值”建模工具。将关注的列输入“Y,列”列表。您还可以指定依据变量。

注意:您只能在“探索缺失值”实用工具中输入建模类型为“数值”的列。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).