이상치 탐색 플랫폼의 "로버스트 적합 이상치" 보고서에는 일련의 컨트롤 및 여러 탭에 구성된 결과가 포함됩니다.
"로버스트 적합 이상치" 컨트롤은 로버스트 추정값 및 승수 K를 계산하는 데 사용되는 방법을 지정합니다. 중심 및 산포에 대한 로버스트 추정값이 주어지면 이상치는 로버스트 중심에서 로버스트 산포의 K배 이상 떨어진 값으로 정의됩니다.
그림 21.7 로버스트 적합 이상치 컨트롤
Huber
Huber M-추정을 사용하여 중심과 산포를 추정합니다. 이 옵션이 기본값입니다. 자세한 내용은 Huber와 Ronchetti 연구 자료(2009)에서 확인하십시오.
Cauchy
Cauchy 분포를 가정하여 중심 및 산포 추정값을 계산합니다. Cauchy 추정값은 높은 붕괴점을 가지며 일반적으로 Huber 추정값보다 더 로버스트합니다. 그러나 데이터가 군집으로 분리된 경우 Cauchy 분포는 더 가깝게 군집화된 데이터의 절반만 고려하고 나머지는 무시하는 경향이 있습니다.
사분위수
중앙값을 중심 측도로 사용하고, IQR(사분위수 범위)을 1.34898로 나눈 값을 산포 측도로 사용합니다. 데이터가 정규 분포를 따르는 경우 IQR을 1.34898 인수로 나누면 산포가 1 표준편차에 해당합니다.
K 시그마
중심에서 산포의 K배 이상 떨어진 값을 이상치로 결정하는 승수입니다. K 값이 크면 작은 값보다 더 보수적인 이상치 집합이 제공됩니다. 기본값은 4입니다.
다시 스캔
이상치 처리 동작을 수행한 후 데이터를 다시 스캔합니다.
팁: 열려 있는 모든 이상치 방법에서 다시 스캔하려면 Ctrl 키를 누른 채 다시 스캔을 클릭합니다.
닫기
"로버스트 적합 이상치" 패널을 닫습니다.
팁: 모든 이상치 보고서를 닫으려면 Ctrl 키를 누른 채 닫기를 클릭합니다.
"로버스트 적합 이상치" 보고서의 "열별 이상치" 탭에는 시작 창에서 선택한 각 열에 대한 행이 있는 테이블이 포함되어 있습니다. 테이블의 열은 데이터의 중심과 산포를 추정하는 데 사용되는 기법(Huber, Cauchy 또는 사분위수)에 따라 달라집니다. 각 기법에 대해 추정 중심, 추정 산포, 중심과 산포에 기반한 이상치 수에 해당하는 열이 있습니다.
"열별 이상치" 탭에는 이상치 테이블에서 하나 이상의 행을 선택한 경우 적용할 수 있는 다음 옵션이 포함되어 있습니다.
이상치를 포함하는 열만 표시
"열별 이상치" 탭의 테이블에서 이상치가 없는 열을 제거합니다.
테이블에서 이상치 식별
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
행 선택하기
이상치를 포함하는 행을 선택합니다.
행 제외
제외 행 상태를 적용합니다. "로버스트 적합 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:"행 제외" 옵션은 로컬 데이터 필터 내에서 또는 "자동 재계산" 옵션이 설정된 경우 지원되지 않습니다.
셀에 색상 적용
이상치를 포함하는 셀에 색상을 적용합니다. 낮은 값의 이상치는 파란색으로 표시되고 높은 값의 이상치는 빨간색으로 표시됩니다.
행에 색상 적용
이상치를 포함하는 행에 색상을 적용합니다.
테이블에서 이상치 지우기
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
결측값 코드에 추가
선택한 이상치를 결측값 코드 열 특성에 추가합니다. 이 옵션을 사용하면 데이터 내에서 알려진 결측값 또는 오류 코드를 식별할 수 있습니다. "로버스트 적합 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:시작 창에서 기준 변수를 지정한 경우 "로버스트 적합 이상치"에서 "결측값 코드에 추가"를 사용할 수 없습니다.
결측으로 변경
이상치 값을 결측값으로 변경합니다. "로버스트 적합 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
계산식 열
이상치를 결측으로 설정하기 위해 각 열에 대한 새 계산식 열을 생성합니다. 새 열은 원래 열과 구분하기 위해 사용자가 지정한 이름을 접두사 또는 접미사로 사용합니다. 기본적으로 접미사는 "선별"로 설정됩니다.
계산식 스크립트
데이터 테이블에 추가되는 스크립트를 생성합니다. 스크립트가 실행되면 이상치를 결측으로 설정하기 위해 각 열에 대해 새 계산식 열이 생성됩니다. 새 열은 원래 열과 구분하기 위해 사용자가 지정한 이름을 접두사 또는 접미사로 사용합니다. 기본적으로 접미사는 "선별"로 설정됩니다.
"로버스트 적합 이상치" 보고서의 "셀별 이상치" 탭에는 컨트롤에 지정된 설정으로 찾은 개별 이상치 테이블이 포함되어 있습니다. 테이블에는 열 이름, 행 번호, 이상치 거리 및 개별 이상치의 실제값이 표시됩니다. 이상치 거리는 이상치가 얼마나 극단적인지를 나타내는 측도이며 다음 방정식을 사용하여 계산됩니다.
이상치 거리 = 
다음은 각 요소에 대한 설명입니다.
x = 이상치의 실제값
c = 이상치를 포함하는 열의 중심. 지정된 이상치 방법(Huber, Cauchy 또는 사분위수)으로 측정됩니다.
s = 이상치를 포함하는 열의 산포. 지정된 이상치 방법(Huber, Cauchy 또는 사분위수)으로 측정됩니다.
이상치 거리가 클수록 더 극단적인 이상치를 나타냅니다.
"셀별 이상치" 탭에는 이상치 테이블에서 하나 이상의 행을 선택한 경우 적용할 수 있는 다음 옵션이 포함되어 있습니다.
테이블에서 이상치 식별
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
행/열 선택
선택한 이상치에 해당하는 행과 열을 선택합니다.
셀에 색상 적용
이상치를 포함하는 셀에 색상을 적용합니다. 낮은 값의 이상치는 파란색으로 표시되고 높은 값의 이상치는 빨간색으로 표시됩니다.
테이블에서 이상치 지우기
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
결측값 코드에 추가
선택한 이상치를 결측값 코드 열 특성에 추가합니다. 이 옵션을 사용하면 데이터 내에서 알려진 결측값 또는 오류 코드를 식별할 수 있습니다. 결측값 및 오류 코드는 대개 정수이고 9모음값일 때도 있습니다. "로버스트 적합 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:시작 창에서 기준 변수를 지정한 경우 "로버스트 적합 이상치"에서 "결측값 코드에 추가"를 사용할 수 없습니다.
결측으로 변경
데이터 테이블에서 이상치 값을 결측값으로 변경합니다. 값을 결측값으로 변경할 때 주의해야 합니다. 데이터가 올바르지 않거나 정확하지 않을 때만 결측값으로 변경합니다. "로버스트 적합 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:선택한 이상치가 결측값 코드에 추가된 경우 이상치가 결측값으로 변경되지 않습니다.