이상치 탐색 플랫폼의 "분위수 범위 이상치" 보고서에는 일련의 컨트롤 및 여러 탭에 구성된 결과가 포함됩니다.
분위수 범위 이상치 컨트롤을 사용하면 이상치를 식별하는 방법을 지정할 수 있습니다. 이상치는 1사분위수와 3사분위수의 분위수 간 범위의 Q배를 넘는 값으로 간주됩니다. Q 값과 분위수 간 범위 크기를 조정할 수 있습니다.
그림 21.6 분위수 범위 이상치 초기 옵션
꼬리 분위수
분위수 간 범위를 계산하는 데 사용되는 1사분위수에 대한 확률입니다. 3사분위수 확률은 1 - 꼬리 분위수로 간주됩니다. 예를 들어 꼬리 분위수 값이 0.1이면 분위수 간 범위는 데이터의 0.1 분위수에서 0.9 분위수 사이임을 의미합니다. 기본값은 0.1입니다.
Q
이상치 임계값을 결정하는 승수입니다. 꼬리 분위수 또는 1 - 꼬리 분위수 값을 넘어 분위수 간 범위의 Q배를 초과하는 값이 이상치로 식별됩니다. Q 값이 크면 작은 값보다 더 보수적인 이상치 집합이 제공됩니다. 기본값은 3입니다.
검색을 정수로 제한
이상치 값을 정수 값으로만 제한합니다. 이 설정은 업종별 결측값 코드 및 오류 코드를 찾기 위해 이상치 검색을 제한합니다.
다시 스캔
이상치 처리 동작을 수행한 후 데이터를 다시 스캔합니다.
팁: 열려 있는 모든 이상치 방법에서 다시 스캔하려면 Ctrl 키를 누른 채 다시 스캔을 클릭합니다.
닫기
"분위수 범위 이상치" 보고서를 닫습니다.
팁: 모든 이상치 보고서를 닫으려면 Ctrl 키를 누른 채 닫기를 클릭합니다.
"분위수 범위 이상치" 보고서의 "열별 이상치" 탭에는 컨트롤에 지정된 설정으로 찾은 이상치가 있는 열 테이블이 포함되어 있습니다. 이 테이블에는 1사분위수/3사분위수 및 낮은 임계/높은 임계에 대한 값이 표시됩니다. 이러한 임계값 한계를 벗어나는 값을 이상치로 간주합니다. 각 열의 이상치 수가 표시됩니다. 각 이상치 값이 테이블의 마지막 열에 나열됩니다. 한 열에 두 번 이상 나오는 이상치는 괄호 안에 개수가 표시됩니다.
"열별 이상치" 탭에는 이상치 테이블에서 하나 이상의 행을 선택한 경우 적용할 수 있는 다음 옵션이 포함되어 있습니다.
이상치를 포함하는 열만 표시
"열별 이상치" 탭의 테이블에서 이상치가 없는 열을 제거합니다.
테이블에서 이상치 식별
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
행 선택하기
이상치를 포함하는 행을 선택합니다.
행 제외
제외 행 상태를 적용합니다. "분위수 범위 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:"행 제외" 옵션은 로컬 데이터 필터 내에서 또는 "자동 재계산" 옵션이 설정된 경우 지원되지 않습니다.
셀에 색상 적용
이상치를 포함하는 셀에 색상을 적용합니다. 낮은 값의 이상치는 파란색으로 표시되고 높은 값의 이상치는 빨간색으로 표시됩니다.
행에 색상 적용
이상치를 포함하는 행에 색상을 적용합니다.
테이블에서 이상치 지우기
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
결측값 코드에 추가
이상치를 결측값 코드 열 특성에 추가합니다. 이 옵션을 사용하면 데이터 내에서 알려진 결측값 또는 오류 코드를 식별할 수 있습니다. 결측값 및 오류 코드는 대개 정수이고 9모음값일 때도 있습니다. "분위수 범위 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:시작 창에서 기준 변수를 지정한 경우 "분위수 범위 이상치"에서 "결측값 코드에 추가"를 사용할 수 없습니다.
결측으로 변경
이상치 값을 결측값으로 변경합니다. 값을 결측값으로 변경할 때 주의해야 합니다. 데이터가 올바르지 않거나 정확하지 않을 때만 결측값으로 변경합니다. "분위수 범위 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:선택한 이상치가 결측값 코드에 추가된 경우 이상치가 결측값으로 변경되지 않습니다.
계산식 열
이상치를 결측으로 설정하기 위해 각 열에 대한 새 계산식 열을 생성합니다. 새 열은 원래 열과 구분하기 위해 사용자가 지정한 이름을 접두사 또는 접미사로 사용합니다. 기본적으로 접미사는 "선별"로 설정됩니다.
계산식 스크립트
데이터 테이블에 추가되는 스크립트를 생성합니다. 스크립트가 실행되면 이상치를 결측으로 설정하기 위해 각 열에 대해 새 계산식 열이 생성됩니다. 새 열은 원래 열과 구분하기 위해 사용자가 지정한 이름을 접두사 또는 접미사로 사용합니다. 기본적으로 접미사는 "선별"로 설정됩니다.
"분위수 범위 이상치" 보고서의 "셀별 이상치" 탭에는 컨트롤에 지정된 설정으로 찾은 개별 이상치 테이블이 포함되어 있습니다. 테이블에는 열 이름, 행 번호, 이상치 거리 및 개별 이상치의 실제값이 표시됩니다. 이상치 거리는 이상치가 얼마나 극단적인지를 나타내는 측도이며 다음 방정식을 사용하여 계산됩니다.
이상치 거리 = 
다음은 각 요소에 대한 설명입니다.
x = 이상치의 실제값
m = 이상치가 있는 열의 중앙값
IQR = 지정된 꼬리 분위수를 사용한 분위수 간 범위
이상치 거리가 클수록 더 극단적인 이상치를 나타냅니다.
"셀별 이상치" 탭에는 이상치 테이블에서 하나 이상의 행을 선택한 경우 적용할 수 있는 다음 옵션이 포함되어 있습니다.
테이블에서 이상치 식별
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
행/열 선택
선택한 이상치에 해당하는 행과 열을 선택합니다.
셀에 색상 적용
데이터 테이블에서 이상치 셀에 색상을 적용합니다. 낮은 값의 이상치는 파란색으로 표시되고 높은 값의 이상치는 빨간색으로 표시됩니다.
테이블에서 이상치 지우기
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
결측값 코드에 추가
선택한 이상치를 결측값 코드 열 특성에 추가합니다. 이 옵션을 사용하면 데이터 내에서 알려진 결측값 또는 오류 코드를 식별할 수 있습니다. 결측값 및 오류 코드는 대개 정수이고 9모음값일 때도 있습니다. "분위수 범위 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:시작 창에서 기준 변수를 지정한 경우 "분위수 범위 이상치"에서 "결측값 코드에 추가"를 사용할 수 없습니다.
결측으로 변경
이상치 값을 결측값으로 변경합니다. 값을 결측값으로 변경할 때 주의해야 합니다. 데이터가 올바르지 않거나 정확하지 않을 때만 결측값으로 변경합니다. "분위수 범위 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:선택한 이상치가 결측값 코드에 추가된 경우 이상치가 결측값으로 변경되지 않습니다.
"행별 이상치" 탭에는 컨트롤에 지정된 설정으로 찾은 이상치가 있는 행 테이블이 포함되어 있습니다. 이 테이블에는 행 번호와 해당 행에서 발견된 이상치 수가 표시됩니다.
"행별 이상치" 탭에는 이상치 테이블에서 하나 이상의 행을 선택한 경우 적용할 수 있는 다음 옵션이 포함되어 있습니다.
테이블에서 이상치 식별
이상치 요약 테이블에서 선택한 행의 원래 데이터 테이블에 작업을 적용합니다.
행 선택하기
이상치가 있는 행을 선택합니다.
행 제외
제외 행 상태를 적용합니다. "분위수 범위 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭합니다.
참고:"행 제외" 옵션은 로컬 데이터 필터 내에서 또는 "자동 재계산" 옵션이 설정된 경우 지원되지 않습니다.
행에 색상 적용
이상치를 포함하는 행에 색상을 적용합니다.
"분위수 범위 이상치" 보고서의 "9모음값" 탭에는 가능성 있는 결측값 코드가 포함된 열 테이블이 표시됩니다. 이러한 결측값 코드는 연속된 9(보통 9999)로 표시되며, 모두 9이고 3사분위수보다 높은 가장 큰 숫자입니다. 그 수가 많으면 이러한 이상치가 실제로 결측값 코드일 가능성이 높습니다. 그 수가 매우 적으면 추가 분석을 통해 해당 값이 이상치인지 아니면 결측값 코드인지 판별해야 합니다. 테이블에는 3사분위수 값도 포함됩니다.
"9모음값" 탭은 가능성 있는 결측값 코드가 식별된 경우에만 표시됩니다.
"9모음값" 탭에는 테이블에서 하나 이상의 행을 선택한 경우 선택할 수 있는 다음 옵션이 포함되어 있습니다.
결측값 코드에 가장 큰 9모음값 추가
선택한 이상치 값을 결측값 코드 열 특성에 추가합니다. "분위수 범위 이상치" 보고서를 업데이트하려면 다시 스캔을 클릭해야 합니다.
참고: 시작 창에서 기준 변수를 지정한 경우 "분위수 범위 이상치"에서 "결측값 코드에 가장 큰 9모음값 추가"를 사용할 수 없습니다.
가장 높은 9모음값을 결측값으로 변경
선택한 이상치 값을 데이터 테이블의 결측값으로 바꿉니다.
참고: 데이터 변경을 위해 처음으로 작업(예: 결측으로 변경 또는 행 제외)을 선택하면 원래 데이터의 복사본을 유지하기 위해 다른 이름으로 저장 명령을 사용하여 데이터 테이블을 새 파일로 저장하라는 경고 창이 표시됩니다. 이 창이 나타나면 확인을 클릭합니다. 새 데이터 파일을 저장하기로 결정하면 파일을 새 이름으로 저장하라는 메시지가 자동으로 표시됩니다.