서포트 벡터 머신의 예이 예에서는 "설계 조정" 옵션을 사용하여 커널 함수 및 모수 값이 서로 다른 여러 서포트 벡터 머신 모형을 적합시킵니다. 당뇨병 환자의 질병 경과를 예측하기 위한 최적 분류 모형을 찾으려고 합니다. 각 환자가 병원에 처음 내원한 후 1년 동안 얻은 당뇨병 진행 경과의 이진 측정값 및 기준 의료 데이터가 있습니다. 이 측정값은 질병 경과를 Low 또는 High로 정량화합니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Diabetes.jmp를 엽니다.
2. 분석 > 예측 모델링 > 서포트 벡터 머신을 선택합니다.
3. Y Binary를 선택하고 Y, 반응을 클릭합니다.
4. Age ~ Glucose를 선택하고 X, 요인을 클릭합니다.
5. Validation을 선택하고 검증을 클릭합니다.
6. 확인을 클릭합니다.
7. "모형 시작" 제어판에서 커널 함수가 "방사 기저 함수"인지 확인하고 "설계 조정"을 선택합니다.
8. "런 수" 옆에 "10"을 입력합니다.
9. 시작을 클릭합니다.
10. "모형 시작" 옆의 회색 삼각형을 클릭하여 "모형 시작" 제어판을 엽니다.
11. 커널 함수를 "선형" 함수로 변경하고 "설계 조정"을 선택합니다.
12. "런 수" 옆에 "10"을 입력합니다.
13. 시작을 클릭합니다.
그림 9.2 모형 비교 보고서
"모형 비교" 보고서에서는 오분류 비율과 R²을 기준으로 한 결과 모형 20이 최적 모형임을 보여 줍니다. 이 모형에는 비용 모수가 0.04975인 선형 커널 함수가 있습니다. 이 모형으로 추가 분석을 수행합니다.
그림 9.3 최량 적합 모형에 대한 모형 보고서
"모형 요약" 보고서에서는 훈련 데이터 집합과 검증 데이터 집합의 오분류 비율이 매우 비슷하다는 것을 보여 줍니다. 이것은 모형이 데이터를 과대적합하지 않았음을 나타내는 좋은 표시입니다. 혼동 행렬은 모형에 의해 잘못 분류된 관측값 유형에 대한 자세한 정보를 제공합니다. 혼동 행렬의 왼쪽 위를 보면 대부분의 경우 모형이 Low 반응을 올바르게 분류한다는 것을 알 수 있습니다(훈련 데이터 집합의 96%, 검증 데이터 집합의 92.6%). 그러나 High 반응 중 올바르게 분류된 것은 더 적습니다(훈련 데이터 집합의 53%, 검증 데이터 집합의 68.4%). 따라서 오분류의 대부분은 High 반응이 Low로 잘못 분류된 것입니다.
참고: 설계 조정에서 설계점의 랜덤 특성으로 인해 결과가 달라집니다.