나이브 베이즈의 예미래 환자의 질병 경과를 High 또는 Low로 예측하는 데 사용할 분류 모형을 생성하려고 합니다. 442명의 당뇨병 환자에 대한 기준 의료 데이터가 있습니다. 또한 각 환자가 병원에 처음 내원한 후 1년 동안 얻은 당뇨병 진행 경과의 이진 측정값도 있습니다. 이 측정값은 질병 경과를 Low 또는 High로 정량화합니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Diabetes.jmp를 엽니다.
2. 분석 > 예측 모델링 > 나이브 베이즈를 선택합니다.
3. Y Binary를 선택하고 Y, 반응을 클릭합니다.
4. Age ~ Glucose를 선택하고 X, 요인을 클릭합니다.
5. Validation을 선택하고 검증을 클릭합니다.
6. 확인을 클릭합니다.
그림 8.2 나이브 베이즈 보고서
훈련 데이터 집합의 오분류 비율은 약 21%이고 검증 데이터 집합의 오분류 비율은 약 24%입니다. "혼동 행렬"을 보면 훈련 데이터 집합과 검증 데이터 집합 둘 다 질병 경과가 Low인 환자를 High로 분류한 것이 오분류의 큰 원인임을 알 수 있습니다. 검증 데이터 집합 결과는 모형이 독립적 관측값으로 확장하는 방식을 나타냅니다.
나이브 베이즈 분류에 가장 큰 영향을 미치는 개별 예측 변수에 대해 알아보려고 합니다.
7. "나이브 베이즈"의 빨간색 삼각형을 클릭하고 프로파일러를 선택합니다.
그림 8.3 질병 경과에 대한 예측 프로파일러
8. "예측 프로파일러"의 빨간색 삼각형을 클릭하고 변수 중요도 평가 > 독립 균등 입력을 선택합니다.
그림 8.4 변수 중요도
"요약 보고서"에서는 HDL, BMI 및 LTG가 추정 확률에 가장 큰 영향을 미친다는 것을 나타냅니다.
그림 8.5 주변 모형 그림 보고서
"주변 모형 그림" 보고서의 두 번째 행 그림에서는 HDL 값이 높을수록 환자를 High로 분류할 확률이 낮음을 보여 줍니다. 또한 BMI와 LTG 값이 높을수록 환자를 High로 분류할 확률이 높습니다.