预测和专业建模 > 建模工具 > “探索离群值”实用工具 > “探索离群值”实用工具的示例
发布日期: 11/15/2021

“探索离群值”实用工具的示例

使用“探索离群值”实用工具可标识离群值,随后可使用“分布”平台检查这些离群值。Probe.jmp 样本数据表包含对 5800 个半导体晶片测量的 387 个特征(响应列组)。批 ID晶片编号列唯一标识晶片。您关注的是:标识数据集中选定的一组列内的离群值。

1. 选择帮助 > 样本数据库并打开 Probe.jmp 样本数据表。

2. 选择分析 > 筛选 > 探索离群值

3. 点击 Responses (387/0) 旁边的小三角以显示组中所有列。

4. 从列 VDP_M1 一直选择到 VDP_SICR,然后点击 Y,列。应已选定 14 列。

图 21.2 探索离群值启动窗口 

Image shown here

5. 点击确定

6. 点击分位数范围离群值

“分位数范围离群值”报表显示每列并列出找到的离群值的数量和标识。

7. 在“分位数范围离群值”报表中,选择仅显示带离群值的列。这会将列列表限定为仅包含离群值的那些列。

请注意,有若干列包含离群值 9999。许多行业都将 9999 用作缺失值代码。

8. 在“9999”报表中,选择每列。

9. 点击将最高 9999 添加至缺失值代码

会有一条 JMP 警示提醒您应该使用另存为命令保留原始数据。

10. 点击确定

11. 在“分位数范围离群值”报表中,点击重新扫描

12. 选择将搜索限制为整数

在连续数据的情况下,整数值往往是错误代码或其他编码数据值。请注意,该组列中未包含其他错误代码。

13. 取消选择将搜索限制为整数

检查数据

1. 选择“分位数范围离群值”报表中其余所有列。

2. 点击选择行

3. 选择分析 > 分布

4. 将选定列分配到 Y,列角色。由于您在“分位数范围离群值”报表中选定了这些列名,所以它们在“分布”启动窗口中已然处于选定状态。

5. 点击确定

图 21.3 带有已选定离群值的列的分布 

Image shown here

在列 VDP_M1VDP_PEMIT 中,请注意有些选定的离群值与大多数数据有些接近。对于其余的列,选定的离群值看起来远离大多数数据。调查数据点并将其从分析中排除。

精简排除的离群值

1. 在“分位数范围离群值”报表中,按住 Ctrl 并取消选择列 VDP_M1VDP_PEMIT

2. 在选定报表中其余列的情况下,点击排除行

3. 将 Q 改为 20。

4. 点击重新扫描

5. 选择报表中的列 VDP_M1VDP_PEMIT

6. 点击选择行

重新检查数据

1. 再次检查“分布”报表。请注意,选定的离群值现在足够远离大多数数据,可以选定它们并从分析中排除它们。

2. 在“分位数范围离群值”报表中,点击排除行

3. 在“分布”报表中,点击“分布”红色小三角并选择重新运行 > 重新运行分析

图 21.4 带有已排除离群值的列的分布 

Image shown here

排除离群值后,所显示的数据分布现在更能够说明问题。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).