발행일 : 03/10/2025

K 최근접 이웃 이상치

이상치 탐색 플랫폼의 K 최근접 이웃 이상치 방법을 사용하여 최근접 이웃과의 거리를 기반으로 이상치를 식별할 수 있습니다. K 최근접 이웃 이상치 방법은 각 k 값에 대해 각 점에서 k번째 최근접 이웃까지의 유클리드 거리 그림을 표시합니다. K로 표시되는 가장 큰 k 값을 지정합니다. 그림이 너무 많이 표시되지 않도록 피보나치 수열을 사용하여 k = 1,2,3,5,...,K에 대한 그림이 제공됩니다.

최근접 이웃을 계산하기 전에 열을 중심화하고 척도화합니다. 척도 인수는 다음과 같습니다.

max [Q(0.75) - Q(0.50), Q(0.50) - Q(0.25)]/[정규 분위수(0.75)]

다음은 각 요소에 대한 설명입니다.

Q(p)는 p번째 분위수입니다.

참고: Q(0.75) 또는 Q(0.25)가 중앙값과 같으면 0이 아닌 범위가 될 때까지 더 극단적인 분위수가 사용됩니다.

이 방법은 지정된 k 값에 민감합니다. K 값이 작으면 점을 이상치로 식별하지 못할 수 있고 k 값이 크면 점을 이상치로 잘못 분류할 수 있습니다.

소수의 이웃만 연구하기 위해 K 값을 작게 지정하는 경우를 가정해 보겠습니다. K개를 초과하는 점을 포함하고 나머지 점에서 멀리 떨어져 있는 군집의 경우 군집 내의 점은 최근접 이웃과의 거리가 짧습니다. 이상치 군집을 감지하지 못할 수 있습니다.

많은 수의 이웃을 연구하기 위해 K 값을 크게 지정하는 경우를 가정해 보겠습니다. K개 미만의 데이터 점을 포함하는 군집의 경우 이러한 군집 내의 점은 이상치일 수 있습니다. 군집이 점으로 구성된다는 점을 간과하고 대신 개별 군집 멤버를 이상치로 해석할 수 있습니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).