발행일 : 03/10/2025

결측값 정보화의 예

이 예에서는 파티션 플랫폼을 사용하여 고객이 신용 위험 상태인지 예측하는 의사 결정 나무 모형을 생성합니다. 데이터 집합에 결측값이 포함되어 있으므로 결측값 정보화 옵션의 유효성도 살펴봅니다.

파티션 플랫폼 시작

1. 도움말 > 샘플 데이터 폴더를 선택하고 Equity.jmp를 엽니다.

2. 분석 > 예측 모델링 > 파티션을 선택합니다.

3. BAD를 선택하고 Y, 반응을 클릭합니다.

4. LOAN ~ DEBTINC를 선택하고 X, 요인을 클릭합니다.

5. 확인을 클릭합니다.

결측값 정보화를 사용하여 의사 결정 나무 및 ROC 곡선 생성

1. Shift 키를 누른 채 분할을 클릭합니다.

2. 분할 수에 "5"를 입력하고 확인을 클릭합니다.

3. "BAD에 대한 분할" 옆의 빨간색 삼각형을 클릭하고 ROC 곡선을 선택합니다.

4. "BAD에 대한 분할" 옆의 빨간색 삼각형을 클릭하고 열 저장 > 예측 계산식 저장을 선택합니다.

확률(BAD==Good Risk)확률(BAD==Bad Risk) 열에 결측값 정보화 유틸리티에서 미래 대출 신청인의 신용 위험을 분류하기 위해 사용하는 계산식이 포함됩니다. 결측값 정보화를 사용하지 않는 모형과 비교하여 이 모형이 어떻게 수행되는지에 관심이 있습니다.

결측값 정보화를 사용하지 않고 의사 결정 나무 및 ROC 곡선 생성

1. "BAD에 대한 분할" 옆의 빨간색 삼각형을 클릭하고 다시 실행 > 분석 다시 시작을 선택합니다.

2. 결측값 정보화를 선택 취소합니다.

3. "확인"을 클릭하고 결측값 정보화를 사용하여 의사 결정 나무 및 ROC 곡선 생성의 단계를 반복합니다.

확률(BAD==Good Risk) 2확률(BAD==Bad Risk) 2에 결측값 정보화 유틸리티를 사용하지 않는 계산식이 포함됩니다.

ROC 곡선 비교

두 모형의 ROC 곡선을 시각적으로 비교해 봅니다. 왼쪽 모형은 결측값 정보화를 사용한 모형이고 오른쪽 모형은 결측값 정보화를 사용하지 않은 모형입니다.

그림 4.15 결측값 정보화를 사용한 모형의 ROC 곡선(왼쪽)과 결측값 정보화를 사용하지 않은 모형의 ROC 곡선(오른쪽) 

ROC Curves for Models with (Left) and without (Right) Informative MissingROC Curves for Models with (Left) and without (Right) Informative Missing

결측값 정보화를 사용한 모형의 AUC(곡선 아래 면적) 값 0.8695가 결측값 정보화를 사용하지 않은 모형의 AUC 값 0.7283보다 높습니다. 반응 수준이 두 개뿐이므로 각 모형의 ROC 곡선은 서로 다른 모형을 반영하고 AUC가 같습니다.

참고: AUC는 결측값 정보화를 사용하지 않은 모형에 대해 표시되는 것과 다를 수 있습니다. 결측값 정보화를 사용하지 않는 경우 결측 행이 분할 측면에 랜덤 할당됩니다. 분석을 다시 실행하면 결과에 약간 차이가 있을 수 있습니다.

모형 비교 플랫폼 사용

다음으로, 모형 비교 플랫폼에서 모형을 비교하여 step 4step 3에서 생성한 두 계산식 집합을 비교합니다.

1. 분석 > 예측 모델링 > 모형 비교를 선택합니다.

2. 확률(BAD==Good Risk), 확률(BAD==Bad Risk), 확률(BAD==Good Risk) 2확률(BAD==Bad Risk) 2를 선택하고 Y, 예측 변수를 클릭합니다.

첫 번째 계산식 열 쌍에는 결측값 정보화를 사용하는 모형의 계산식이 포함됩니다. 두 번째 계산식 열 쌍에는 결측값 정보화를 사용하지 않는 모형의 계산식이 포함됩니다.

3. 확인을 클릭합니다.

그림 4.16 모형 비교의 적합 측도 

Measures of Fit from Model Comparison

적합 측도 보고서에서는 결측값 정보화를 사용하여 적합된 첫 번째 모형이 결측값 정보화를 사용하지 않고 적합된 두 번째 모형보다 우수하다는 것을 보여 줍니다. 첫 번째 모형은 R² 값이 더 높고 RMSE 값과 오분류 비율이 더 낮습니다. 이러한 비교는 ROC 곡선 비교를 정렬합니다.

참고: 마찬가지로 결측값 정보화가 사용되지 않을 때는 랜덤 차이로 인해 결과가 다를 수 있습니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).