发布日期: 11/15/2021

K 最近邻离群值

使用“K 最近邻离群值”根据到其最近邻的距离来识别离群值。对于每个 K 值,“K 最近邻离群值”实用工具都显示每个点到其第 K 个最近邻的欧氏距离图。您指定 k 的最大值,表示为 K。为 k = 1,2,3,5,...,K 提供了图,使用 Fibonacci 序列以避免显示过多图。

在计算最近邻之前,对列进行中心化和统一尺度。尺度因子定义如下:

max [Q(.75) - Q(.50), Q(.50) - Q(.25)] / [正态分位数(0.75)]

其中

Q(p) 是第 p 分位数

注意:若 Q(75) 或 Q(25) 等于中位数,则会使用更极端的分位数,直到有一个非零的范围。

该方法对于指定的 k 值很敏感。较小的 k 可能会漏标离群值点,较大的 k 可能会将点误分类为离群值:

假定指定的 k 较小,以便您只研究少数近邻。若有超过 k 个点的聚类远离其他点,则该聚类内的点与其最近邻的距离较小。您可能无法检测离群值聚类。

假定指定的 k 较大,以便您研究大量近邻。若聚类内的数据点少于 k 个,则这些聚类内的点可能看起来就是离群值。此时您就可以忽略点构成聚类这一事实,而将单个聚类成员解释为离群值。

“K 最近邻离群值”报表

从命令列表中选择“K 最近邻离群值”时,您需要指定 k 的值,以用作要考虑的最远邻居的上限。还必须指定是否应插补缺失值。请注意,K 设置为 8,并且默认选定“插补缺失值”。

该报表显示选定的 k 值一直到 K 值的图。每个图的 k 值都显示在其垂直轴标签内。该标签的格式为“到邻近值 K = <a> 的距离”,其中,a 是一个表示第 a 个最近邻的整数。每个图都显示从第 i 行中的点到其第 a 个最近邻的距离。与其近邻的距离较远、跨多个 K 值的点很可能是离群值。

图上方的按钮用于执行以下操作:

排除选定行

将与选定点对应的行从进一步分析中排除。这些行在数据表中被分配排除行状态。您需要决定是要重新运行还是关闭“K 最近邻”报表。重新运行该分析将标识新的最近邻。图随之更新,排除的点不再显示。

散点图矩阵

打开一个单独的窗口,其中包含分析中的所有列的散点图矩阵。您可以探索可能的离群值,这需要在“K 最近邻”图中选择这些离群值并在散点图矩阵中查看它们。

保存近邻距离

将每行到其第 n 个最近邻的距离另存为数据表中的新列。

关闭

关闭“K 最近邻”报表。

最大离群值

该报表还包括“最大离群值”表。该表包含与其 K 个最近邻距离最大的 20 个观测。表中包含以下列:

观测的行号。

距离

指定行中的观测到第 K 个最近邻的距离。该表按该列降序排序。

最近邻

列出 k 个最近邻的行号。第一个行号是最近的最近邻。最后一个行号是第 K 个最近邻,该观测与指定行之间的距离可在“距离”列中找到。

列<n>

指定相应的 RSM 值的列名。

RSM<n>

计算每列的 k 最近邻之间的均方根差值。五个最大 RSM 值按顺序显示,其中 RSM1 是最大 RSM 值。第 p 个 RSM 值计算如下:

Equation shown here

其中

Dp 是第 p

Dp,i 是行 i 的第 p 列的值

Dp,ik 是行 i 的第 k 个最近邻的第 p 列的值

注意:“最大离群值”表中显示的“列”和 RSM 列的数目是启动中指定的列数与数字 5 中的最小值。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).