가로형 데이터는 관측값보다 예측 변수가 더 많은 데이터 집합을 설명하는 데 사용되는 용어입니다. 가로형 데이터의 경우 기존 회귀 방법은 실용적이지 않습니다. 이러한 경우 변수 선택을 포함하는 회귀 방법을 사용하여 회귀 모형을 적합시킬 수 있습니다. 이 예에서는 변수 선택 수준이 서로 다른 세 모형을 비교합니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Prostate Cancer.jmp를 엽니다.
2. 분석 > 모형 적합을 선택합니다.
3. "열 선택" 목록에서 Status를 선택하고 Y를 클릭합니다.
이 열은 명목형 반응 열이므로 "분석법"이 "명목형 로지스틱"으로 변경되고 "목표 수준" 옵션이 나타납니다. 이 옵션의 기본값은 데이터 테이블의 "목표 수준" 열 특성에 지정된 값인 "CCD"입니다.
4. "분석법" 목록에서 일반화 회귀를 선택합니다.
"분포" 목록에 "이항" 분포가 자동으로 표시됩니다. Y가 이항 변수이고 명목형 모델링 유형일 때는 이 분포만 사용할 수 있습니다.
5. "열 선택" 목록에서 Proteins 열 그룹을 선택하고 추가를 클릭합니다.
그러면 열 그룹에 포함된 667개 열이 모두 모형에 추가됩니다.
6. 실행을 클릭합니다.
"모형 시작" 제어판이 포함된 "일반화 회귀" 보고서가 나타납니다. 예측 변수의 수가 관측값 수보다 많으므로 초기 로지스틱 회귀 모형 적합이 없습니다.
7. "추정 방법"에서 Elastic Net을 선택합니다.
8. "고급 컨트롤" 옆의 회색 표시 아이콘을 클릭합니다.
그림 7.10 고급 컨트롤
9. "초기에 표시된 해"에서 녹색 영역에서 가장 작음을 선택합니다.
10. 시작을 클릭합니다.
그림 7.11 녹색 영역에서 가장 작은 모형
"해 경로"에서는 최소 AICc 모형과 유사한 것으로 간주되는 가장 작은 모형을 보여 줍니다. 여기서 가장 작은 모형은 모수의 수가 가장 적은 모형을 의미합니다.
11. "AICc 검증을 사용한 이항 Elastic Net" 옆의 회색 표시 아이콘을 클릭합니다.
12. "모형 시작" 옆의 회색 표시 아이콘을 클릭합니다.
13. "초기에 표시된 해"에서 최량 적합을 선택합니다.
14. 시작을 클릭합니다.
그림 7.12 최량 적합 모형
"해 경로"에서는 최량 적합 모형을 보여 줍니다. 여기서 최량 적합 모형은 최소 AICc 값을 가진 모형을 의미합니다.
15. "AICc 검증을 사용한 이항 Elastic Net" 옆의 회색 표시 아이콘을 클릭합니다.
16. "모형 시작" 옆의 회색 표시 아이콘을 클릭합니다.
17. "초기에 표시된 해"에서 녹색 영역에서 가장 큼을 선택합니다.
18. 시작을 클릭합니다.
그림 7.13 녹색 영역에서 가장 큰 모형
"해 경로"에서는 최소 AICc 모형과 유사한 것으로 간주되는 가장 큰 모형을 보여 줍니다. 여기서 가장 큰 모형은 모수의 수가 가장 많은 모형을 의미합니다.
19. "AICc 검증을 사용한 이항 Elastic Net" 옆의 회색 표시 아이콘을 클릭합니다.
그림 7.14 모형 비교 테이블
"모형 비교" 보고서에 세 개의 모형이 표시됩니다. "0이 아닌 모수" 열을 사용하여 각 모형의 크기를 식별할 수 있습니다. 모형의 모수 수가 증가하면 "일반화 R²" 값이 증가합니다. 이러한 모형이 모두 녹색 영역에 있으므로 모든 모형이 최적 모형과 유사하다는 강력한 증거가 있습니다.