이상치 탐색 플랫폼을 사용하면 이상치를 식별, 탐색 및 관리할 수 있습니다. 데이터에서 이상치를 탐색하고 이해하는 것은 분석의 중요한 부분입니다. 데이터의 이상치는 데이터 수집 또는 보고 단계에서의 실수, 측정 시스템 오류, 데이터 집합에 오류 또는 결측값 포함, 단순 비정상 값 등이 원인이 될 수 있습니다. 이상치가 있으면 추정값이 왜곡되고 결과가 해당 이상치로 치우칠 수 있습니다.
이상치는 표본 분산을 부풀립니다. 경우에 따라 데이터의 이상치를 유지해야 하는데 이를 제거하면 표본 분산이 과소추정되고 데이터가 반대 방향으로 편향될 수 있습니다.
이상치는 제거 여부에 상관없이 찾는 것이 좋습니다. 데이터를 시각적으로 검사할 수 있는 여러 가지가 있습니다. 예를 들어 상자 그림, 히스토그램 및 산점도에서는 이러한 극단값을 쉽게 표시할 수 있습니다. 자세한 내용은 데이터 시각화의 JMP 살펴보기에서 확인하십시오.
그림 21.1 다변량 k-최근접 이웃 이상치 예