예측 및 전문 모델링 > 이상치 탐색 > 이상치 탐색의 예
발행일 : 03/10/2025

이상치 탐색의 예

이상치 탐색을 사용하여 데이터 집합의 선택된 열 그룹 내에서 이상치를 식별할 수 있습니다. 식별된 이상치는 분포 플랫폼을 사용하여 검토할 수 있습니다.

1. 도움말 > 샘플 데이터 폴더를 선택하고 Probe.jmp 샘플 데이터 테이블을 엽니다.

2. 분석 > 선별 > 이상치 탐색을 선택합니다.

3. Responses(387/0) 옆의 삼각형을 클릭하여 그룹의 모든 열을 표시합니다.

4. VDP_M1 ~ VDP_SICR 열을 선택하고 Y, 열을 클릭합니다. 14개 열이 선택되어야 합니다.

그림 21.2 이상치 탐색 시작 창 

Explore Outliers Launch Window

5. 확인을 클릭합니다.

6. 분위수 범위 이상치를 클릭합니다.

"분위수 범위 이상치" 보고서는 탭을 사용하여 결과를 구성합니다. "분위수 범위 이상치" 보고서의 "열별 이상치" 탭에 각 열이 표시되고 발견된 이상치의 수와 ID가 나열됩니다.

7. "분위수 범위 이상치" 보고서의 "열별 이상치" 탭에서 이상치를 포함하는 열만 표시 를 선택합니다. 이렇게 하면 이상치를 포함하는 열만 표시되도록 열 목록이 제한됩니다.

몇몇 열에 이상치 값 9999가 포함되어 있습니다. 많은 업계에서 9모음값을 결측값 코드로 사용합니다.

8. "9모음값" 탭을 클릭합니다.

9. "9모음값" 보고서에서 각 열을 선택합니다.

10. 결측값 코드에 가장 큰 9모음값 추가를 클릭합니다.

원래 데이터를 유지하려면 다른 이름으로 저장 명령을 사용해야 함을 나타내는 "JMP 경고"가 표시됩니다.

11. 확인을 클릭합니다.

12. "분위수 범위 이상치" 보고서에서 다시 스캔을 클릭합니다.

13. 검색을 정수로 제한을 선택합니다.

연속형 데이터에서 정수 값은 종종 오류 코드 또는 코드화된 다른 데이터 값을 나타냅니다. 이 열 집합에는 추가 오류 코드가 포함되어 있지 않습니다.

14. 검색을 정수로 제한을 선택 취소합니다.

데이터 검토

보고서의 "열별 이상치" 탭으로 돌아갑니다.

1. 나머지 열을 모두 선택합니다.

2. 행 선택하기를 클릭합니다.

3. 분석 > 분포를 선택합니다.

4. 선택된 열을 Y, 열 역할에 할당합니다. "분위수 범위 이상치" 보고서에서 이러한 열 이름을 선택했으므로 "분포" 시작 창에 이미 선택되어 있습니다. Y, 열을 클릭합니다.

5. 확인을 클릭합니다.

그림 21.3 이상치가 선택된 열의 분포 

Distribution of Columns with Outliers Selected

VDP_M1VDP_PEMIT 열에서는 선택된 이상치 중 일부가 대부분의 데이터에 다소 가깝습니다. 나머지 열의 경우 선택된 이상치가 대부분의 데이터에서 멀리 떨어져 있습니다. 데이터 점을 조사했으므로 분석에서 제외할 열을 결정할 수 있습니다.

제외된 이상치 구체화

보고서의 "열별 이상치" 탭으로 돌아갑니다.

1. Ctrl 키를 누른 채 VDP_M1VDP_PEMIT 열을 선택 취소합니다.

2. 나머지 열은 보고서에서 선택된 상태로 행 제외를 클릭합니다.

3. "Q"를 "20"으로 변경합니다.

4. 다시 스캔을 클릭합니다.

5. 보고서에서 VDP_M1VDP_PEMIT 열을 선택합니다.

6. 행 선택하기를 클릭합니다.

데이터 재검토

1. "분포" 보고서를 다시 검토합니다. 선택된 이상치가 대부분의 데이터에서 충분히 떨어져 있어 분석에서 선택 및 제외할 수 있습니다.

2. "분위수 범위 이상치" 보고서에서 행 제외를 클릭합니다.

3. "분포" 보고서에서 "분포"의 빨간색 삼각형을 클릭하고 다시 실행 > 분석 다시 실행을 선택합니다.

그림 21.4 이상치가 제외된 열의 분포 

Distributions of Columns with Outliers Excluded

이제 이상치 없이 더 유용한 정보가 데이터 분포에 표시됩니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).