범주형 반응이 있는 K 최근접 이웃의 예이 예에서는 주택 담보 대출을 신청하는 고객의 신용 위험을 분류하는 모형을 생성하려고 합니다. 5,960명의 고객을 대상으로 각 고객이 Good Risk(안전한 위험) 또는 Bad Risk(불안한 위험)로 분류된 과거 재무 데이터가 있습니다. 많은 예측 변수에 대해 결측값이 있습니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Equity.jmp를 엽니다.
2. 분석 > 예측 모델링 > K 최근접 이웃을 선택합니다.
3. BAD를 선택하고 Y, 반응을 클릭합니다.
4. LOAN ~ CLNO를 선택하고 X, 요인을 클릭합니다.
잠재적 예측 변수 중 하나인 DEBTINC에는 결측값이 많이 있으므로 모형에 포함하지 않습니다. 연속형 예측 변수의 결측값은 해당 예측 변수의 평균으로 대체됩니다. 이 절차는 주로 결측값이 랜덤인 경우에 잘 맞습니다. DEBINC의 높은 결측 비율은 결측값이 정보를 제공할 수 있음을 나타내지만 이 예에서는 조사하지 않습니다.
5. Validation을 선택하고 검증을 클릭합니다.
6. 확인을 클릭합니다.
그림 7.2 K 최근접 이웃 보고서
JMP에서는 각 K 값에 대해 훈련 데이터 집합 관측값만 사용하여 모형을 생성합니다. 이러한 각 모형은 검증 데이터 집합 관측값을 분류하는 데 사용됩니다. 검증 데이터 집합 결과는 최적 모형을 선택하는 데 사용됩니다. 이 예에서는 단일 최근접 이웃(K = 1)에 기반한 모형의 오분류 비율이 가장 작습니다. 테스트 데이터 집합은 단일 최근접 이웃 모형이 독립 데이터에 대해 최상의 성능을 발휘하는지 확인합니다.
7. "BAD"의 빨간색 삼각형을 클릭하고 예측 계산식 게시를 선택합니다.
8. 이웃 수, K 옆의 기본값 1을 그대로 사용합니다.
9. 확인을 클릭합니다.
예측 방정식이 계산식 저장소에 저장됩니다. "계산식 저장소"의 "모형 비교" 옵션을 사용하여 K = 1 최근접 이웃 모형의 성능과 계산식 저장소에 게시된 대안 모형의 성능을 비교할 수 있습니다. 자세한 내용은 계산식 저장소에서 확인하십시오.