데이터에서 결측값을 탐색하고, 해당하는 경우 이러한 값을 대치하려고 합니다. 먼저 데이터에서 결측값을 탐색한 후 연속형 모델링 유형의 열에 대해 값을 대치합니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Arrhythmia.jmp를 엽니다.
2. 분석 > 선별 > 결측값 탐색을 선택합니다.
3. 모든 연속형 열(총 207개)을 선택하고 Y, 열을 클릭합니다.
4. 확인을 클릭합니다. 결측값을 포함하는 열만 표시 체크박스를 선택합니다.
그림 22.2 결측값 보고서
Figure 22.2에 표시된 "결측 열" 보고서에서는 5개 열에만 결측 데이터가 있음을 나타냅니다. 총 452개 행 중에서 J 열에 376개의 결측값이 있습니다. 대부분의 값이 결측이므로 대치된 값을 사용한 분석 결과가 의미 없을 수 있습니다. 이러한 데이터의 경우 "결측값 정보화" 옵션을 지원하는 플랫폼에서 J 열에 대해 "결측값 정보화" 옵션을 사용하여 모형을 탐색할 수 있습니다.
결측값이 있는 5개 열이 연속형입니다. 데이터 테이블의 연속형 열에 대해 다변량 대치법을 사용하여 J 열을 제외한 4개 열의 결측값을 대치합니다. 이렇게 하면 값이 결측일 확률은 제외된 명목형 변수의 값이 아니라 연속형 변수의 값에만 의존한다고 암묵적으로 가정합니다. 이 새 분석을 수행하려면 결측값 탐색 플랫폼을 다시 시작해야 합니다.
1. 분석 > 선별 > 결측값 탐색을 선택합니다.
2. 시작 창에서 280개 열 옆의 빨간색 삼각형을 클릭합니다.
열 필터 메뉴를 사용하여 "열 선택" 목록에서 연속형 모델링 유형의 열만 표시합니다.
3. 모델링 유형 > 모두 선택 해제를 선택합니다.
이렇게 하면 "열 선택" 목록에서 모든 열이 제거됩니다.
4. 모델링 유형 > 연속형을 선택합니다.
이제 "열 선택" 목록에 207개의 연속형 열만 포함됩니다.
5. 207개 열을 모두 선택합니다. 그런 다음 Ctrl 키를 누른 채 J 열을 클릭하여 선택 취소하고 Y, 열을 클릭합니다.
6. 확인을 클릭합니다.
7. 다변량 정규 대치법을 클릭합니다.
공분산에 대해 축소 추정량을 사용할지 묻는 창이 나타납니다.
8. 예(축소)를 클릭합니다.
원래 데이터를 유지하려면 다른 이름으로 저장 명령을 사용해야 함을 알리는 "JMP 경고"가 나타납니다.
9. 확인을 클릭합니다.
그림 22.3 결측값 대치 보고서
"결측값 대치 보고서"에는 대치된 결측값 수와 결측값 대치 관련 상세 정보가 표시됩니다. 결측값이 있었던 4개 열에 결측 데이터가 남아 있지 않습니다.