이상치 탐색을 시작하려면 분석 > 선별 > 이상치 탐색을 선택합니다.
참고: "이상치 탐색" 명령은 연속형 모델링 유형의 열만 분석합니다. 다른 열을 시작 창에 입력할 수 있지만 무시됩니다.
그림 21.5 이상치 탐색 플랫폼 시작 창
"열 선택"의 빨간색 삼각형 메뉴에 포함된 옵션에 대한 자세한 내용은 열 필터 메뉴의 JMP 사용에서 확인하십시오.
Y, 열
분석할 열을 지정합니다.
검증
로버스트 PCA 이상치에 사용되는 검증 열을 지정합니다.
라벨
다변량 분석 보고서의 행 번호를 라벨로 바꾸는 열을 지정합니다.
기준
개별 분석을 정의하는 수준이 포함된 하나 이상의 열입니다. 지정된 열의 각 수준에 대해 해당 행은 사용자가 지정한 다른 변수를 사용하여 분석됩니다. 결과는 개별 보고서에 제공됩니다. 기준 변수가 둘 이상 할당되면 기준 변수의 가능한 각 수준 조합에 대해 개별 보고서가 생성됩니다.
팁: 기준 변수의 모든 수준에 대해 이상치 분석을 실행하려면 Ctrl 키를 누른 채 원하는 이상치 분석 명령 버튼을 클릭합니다.
확인을 클릭하면 "이상치 탐색" 보고서가 나타납니다. 이 보고서에는 단변량 및 다변량 데이터에서 이상치를 찾는 여러 가지 방법이 포함되어 있습니다. 선택하기 전에 각 방법에 대해 옵션을 지정할 수 있습니다.
단변량 데이터에서 이상치를 탐색하기 위한 두 가지 옵션이 있습니다.
분위수 범위 이상치
각 열의 분위수 분포를 사용하여 이상치를 극단값으로 식별합니다. 이 도구는 데이터 내에서 결측값 또는 오류 코드를 검색하는 데 유용합니다. 이 방법은 데이터의 이상치 탐색을 시작하는 데 권장됩니다. 자세한 내용은 분위수 범위 이상치에서 확인하십시오. 다음 옵션을 지정할 수 있습니다.
꼬리 분위수
분위수 간 범위를 계산하는 데 사용되는 1사분위수에 대한 확률입니다. 3사분위수 확률은 1 - 꼬리 분위수로 간주됩니다. 예를 들어 꼬리 분위수 값이 0.1이면 분위수 간 범위는 데이터의 0.1 분위수에서 0.9 분위수 사이임을 의미합니다. 기본값은 0.1입니다.
Q
이상치 임계값을 결정하는 승수입니다. 꼬리 분위수 또는 1 - 꼬리 분위수 값을 넘어 분위수 간 범위의 Q배를 초과하는 값이 이상치로 식별됩니다. Q 값이 크면 작은 값보다 더 보수적인 이상치 집합이 제공됩니다. 기본값은 3입니다.
로버스트 적합 이상치
각 열의 중심 및 산포에 대한 로버스트 추정값을 찾고 이상치를 해당 값에서 멀리 떨어진 데이터 점으로 식별합니다. 자세한 내용은 로버스트 적합 이상치에서 확인하십시오. 다음 옵션을 지정할 수 있습니다.
K 시그마
중심에서 산포의 K배 이상 떨어진 값을 이상치로 결정하는 승수입니다. K 값이 크면 작은 값보다 더 보수적인 이상치 집합이 제공됩니다. 기본값은 4입니다.
Huber
Huber M-추정을 사용하여 중심과 산포를 추정합니다. 이 옵션이 기본값입니다. 자세한 내용은 Huber와 Ronchetti 연구 자료(2009)에서 확인하십시오.
Cauchy
Cauchy 분포를 가정하여 중심 및 산포 추정값을 계산합니다. Cauchy 추정값은 높은 붕괴점을 가지며 일반적으로 Huber 추정값보다 더 로버스트합니다. 그러나 데이터가 군집으로 분리된 경우 Cauchy 분포는 더 가깝게 군집화된 데이터의 절반만 고려하고 나머지는 무시하는 경향이 있습니다.
사분위수
중앙값을 중심 측도로 사용하고, IQR(사분위수 범위)을 1.34898로 나눈 값을 산포 측도로 사용합니다. 데이터가 정규 분포를 따르는 경우 IQR을 1.34898 인수로 나누면 산포가 1 표준편차에 해당합니다.
다변량 데이터에서 이상치를 탐색하기 위한 두 가지 옵션이 있습니다.
로버스트 PCA 이상치
데이터를 낮은 계수 행렬과 잔차로 분해하고 잔차를 사용하여 이상치를 감지합니다. 자세한 내용은 로버스트 PCA 이상치에서 확인하십시오. 람다 값을 지정하고 데이터를 중심화할지 여부를 선택할 수 있습니다. 고급 옵션의 경우 Shift 키를 누르고 "로버스트 PCA 이상치" 버튼을 클릭하여 "로버스트 PCA 이상치" 옵션 창에 액세스합니다.
람다
잔차 행렬의 희소성을 결정하는 값을 지정합니다. 람다 값이 클수록 잔차 행렬의 희소성도 커집니다. N개의 훈련 행과 p개의 열이 있는 데이터 테이블의 경우 기본 람다 값은 다음과 같이 정의됩니다.

최대 반복
최대 SVD 반복 수를 지정합니다. 기본 반복 수는 100입니다. 시작 창에 20,000개가 넘는 열을 지정한 경우 기본 반복 수는 50입니다.
참고:최대 반복 수에 도달한 후에도 알고리즘이 수렴하지 않으면 JMP 경고가 표시됩니다. 계속해서 반복하거나 취소할 수 있습니다. "취소"를 클릭한 경우 덜 엄격한 수렴 기준이 충족되면 결과가 표시됩니다. "취소"를 클릭한 경우 덜 엄격한 수렴 기준이 충족되지 않으면 결과를 수락할지 여부를 묻는 다른 JMP 경고가 표시됩니다.
수렴 기준
알고리즘의 중지 시기를 결정합니다. 기본 수렴 기준 값은 시작 창에 지정된 열 수를 기준으로 설정됩니다.
• 열 수가 2,000개 미만이면 기본값은 1e-7입니다.
• 열 수가 2,000개 이상이면 기본값은 1e-6입니다.
• 열 수가 20,000개 이상이면 기본값은 1e-5입니다.
• 덜 엄격한 수렴 기준은 원래 수렴 기준의 1000배로 설정됩니다.
이상치 임계값
"큰 잔차 셀" 테이블에 표시되는 이상치를 결정하는 이상치 임계값을 지정합니다. 척도화된 잔차가 다음 값보다 크면 관측값이 표시됩니다.
min[0.99 ´ max{abs(척도화된 잔차)}, 이상치 임계값]
이상치 임계값의 기본값은 2입니다. 2를 이상치 임계값으로 사용하여 이상치가 백만 개가 넘는 경우 이상치 임계값이 3으로 변경됩니다.
중심화
로버스트 PCA 이상치 알고리즘을 수행하기 전에 데이터를 중심화할지 여부를 결정합니다.
참고:행 수가 10보다 작거나 같으면 데이터가 중심화되지 않습니다.
척도화
로버스트 PCA 이상치 알고리즘을 수행하기 전에 데이터를 척도화할지 여부를 결정합니다.
참고:행 수가 10보다 작거나 같으면 데이터가 척도화되지 않습니다.
변수의 수가 매우 많은 와이드 문제의 경우 랜덤화 SVD
(시작 창에 지정된 열 수가 1000개 이상인 경우에만 사용 가능) Lanczos 방법 대신 랜덤화 SVD 방법을 사용하여 데이터를 분해합니다. 이 옵션을 사용하면 가로형 데이터에 대한 로버스트 PCA 이상치 계산 속도가 빨라집니다.자세한 내용은 다변량 방법의랜덤화 SVD에서 확인하십시오.
랜덤화 차원
(시작 창에 지정된 열 수가 1000개 이상인 경우에만 사용 가능) 랜덤화 SVD에 사용되는 차원 수를 지정합니다.
K 최근접 이웃 이상치
이상치를 k개 최근접 이웃에서 멀리 떨어진 값으로 식별합니다. 자세한 내용은 K 최근접 이웃 이상치에서 확인하십시오. 다음 옵션을 지정할 수 있습니다.
K
고려할 가장 먼 이웃의 상한을 지정합니다. 기본값은 8입니다.
결측값 대치
결측값 대치 여부를 지정합니다. 이 옵션을 선택하면 다변량 RPCA 대치법을 사용하여 결측값이 대치됩니다. 자세한 내용은 다변량 RPCA 대치법에서 확인하십시오.