발행일 : 03/10/2025

명목형 항이 있는 모형의 예

이 예에서는 모형 적합 플랫폼의 단계별 분석법에서 명목형 항이 있는 모형을 적합시키는 방법을 보여 줍니다. 2011년에 개봉한 영화의 전 세계 총 수입액에 관심이 있습니다. 잠재적 예측 변수는 연속형 등급 변수 두 개와 영화 장르에 대한 명목형 변수 한 개입니다. 단계별 회귀를 사용하여 모형을 축소하기 전에 관심 변수를 탐색하려고 합니다.

1. 도움말 > 샘플 데이터 폴더를 선택하고 Hollywood Movies.jmp를 엽니다.

2. 분석 > 분포를 선택합니다.

3. Genre를 선택하고 Y, 열을 클릭합니다.

4. 확인을 클릭합니다.

그림 5.14 Genre 분포 

Distribution of Genre

Genre에 9개 수준이 있으므로 8개의 모형 항으로 표시됩니다. 결측 데이터 때문에 추가 데이터 탐색 결과 8개 수준만 단계별 회귀에 고려됩니다.

5. 데이터 테이블의 "열" 패널에서 관심 열을 선택합니다(Rotten Tomatoes Score, Audience Score, World Gross).

6. 분석 > 선별 > 결측값 탐색을 선택합니다.

7. Y, 열을 클릭한 후 확인을 클릭합니다.

그림 5.15 결측 열 보고서 

Missing Columns Report

Rotten Tomatoes Score의 2개 행, Audience Score의 1개 행, World Gross의 2개 행에 각각 결측값이 있습니다.

8. "결측 열" 보고서에서 아래에 나열된 세 열을 선택합니다.

9. 행 선택하기를 클릭합니다.

데이터 테이블의 "행" 패널에서 3개 행이 선택되어 있음을 확인할 수 있습니다. 이 세 행에는 예측 변수 또는 반응에 대한 결측 데이터가 포함되어 있으므로 단계별 분석에서 자동으로 제외됩니다. Adventure 범주에 포함된 항목은 128번 행뿐이므로 해당 범주는 분석에서 완전히 제거됩니다. 결과적으로 단계별 분석에 사용할 Genre에는 8개 범주만 있습니다. 결측 데이터의 효과를 확인했으므로 이제 단계별 분석을 수행합니다.

10. 분석 > 모형 적합을 선택합니다.

11. Rotten Tomatoes Score, Audience ScoreGenre를 선택하고 추가를 클릭합니다.

Rotten Tomatoes Score, Audience ScoreGenre를 예측 변수로 사용하여 표준 최소 제곱 모형을 World Gross에 적합시키면 잔차의 이분산성이 매우 커집니다. 이것은 재무 데이터의 대표적인 예입니다. 로그 변환을 사용하면 등분산 회귀 가정을 더 잘 충족시킬 수 있습니다.

12. "열 선택" 목록에서 World Gross를 마우스 오른쪽 버튼으로 클릭하고 변환 > 로그를 선택합니다.

변환된 변수 로그[World Gross]가 "열 선택" 목록 아래쪽에 나타납니다.

13. 로그[World Gross]를 선택하고 Y를 클릭합니다.

14. "분석법" 목록에서 단계별을 선택합니다.

15. 실행을 클릭합니다.

그림 5.16 모형 항 목록을 보여 주는 현재 추정값 테이블 

Current Estimates Table Showing List of Model Terms

"현재 추정값" 테이블에서 Genre는 7개 항으로 표시됩니다. 이 중 두 개의 항으로 모형을 생성하여 이러한 항이 어떻게 정의되는지 확인합니다.

16. 추가 아래에서 Genre의 처음 두 항 옆에 있는 상자를 선택합니다.

Genre{Drama&Horror&Thriller&Fantasy&Romance&Comedy-Action&Animation}

Genre{Drama&Horror&Thriller-Fantasy&Romance&Comedy}

17. 모형 생성을 클릭합니다.

이 두 항이 "모형 규격" 창의 모형 효과 목록에 임시 변환 열로 추가됩니다. 다음 섹션에서 이 열에 대해 설명합니다.

예제의 계층 항 생성

결측값으로 인해 Genre는 8개 수준의 명목형 변수입니다. "현재 추정값" 테이블에는 Genre가 7개 항으로 표시됩니다. Genre의 수준이 8개이므로 이것은 적절합니다. 아래에서는 Genre를 나타내는 처음 두 항에 대해 설명합니다. 후속 항은 이와 비슷한 방식으로 정의됩니다.

첫 번째 항

처음 나타나는 행은 Genre{Drama&Horror&Thriller&Fantasy&Romance&Comedy-Action&Animation}입니다. 이 변수의 형식은 Genre{A1 - A2}이며, A1과 A2는 빼기 기호(-)로 구분됩니다. 이 표기는 다음 두 수준 집합 사이에 그룹 간 제곱합을 기준으로 최대 분리가 발생한다는 것을 나타냅니다.

Drama, Horror, Thriller, Fantasy, Romance, Comedy(A1로 표시)

Action, Animation(A2로 표시)

Genre{Drama&Horror&Thriller&Fantasy&Romance&Comedy-Action&Animation} 항을 모형에 포함하면 해당 항을 나타내는 임시 변환 열이 모형에 사용됩니다. 열에 다음 값이 포함됩니다.

1 - Drama, Horror, Thriller, Fantasy, Romance, Comedy

-1 - Action, Animation

두 번째 항

두 번째로 나타나는 항은 Genre{Drama&Horror&Thriller-Fantasy&Romance&Comedy}입니다. 이 수준 집합은 첫 번째 항의 첫 번째 분할(A1)에 완전히 포함됩니다. 이 표기는 다음 수준을 대조합니다.

Drama, Horror, Thriller

Fantasy, Romance, Comedy

알고리즘은 Drama, Horror, Thriller, Fantasy, Romance, Comedy 수준(A1)과 Action, Animation 수준(A2)의 모든 분할 중에서 이 분할이 그룹 간 제곱합이 가장 큰 것으로 결정합니다.

이 항을 모형에 포함하면 해당 항을 나타내는 임시 변환 열이 모형에 사용됩니다. 열에 다음 값이 포함됩니다.

1 - Drama, Horror, Thriller

-1 - Fantasy, Romance, Comedy

0 - Action, Animation

항 계층

그룹 간 제곱합 기준에 따라 항 분할이 계속됩니다. Figure 5.17에서는 항 정의를 생성하는 계층을 보여 줍니다.

그림 5.17 계층적 코딩에 사용되는 분할을 보여 주는 트리 

Tree Showing Splits Used in Hierarchical Coding

규칙

결합 규칙 또는 제한 규칙을 사용하는 경우 계층에서 위에 있는 모든 항이 입력되지 않으면 해당 항을 모형에 입력할 수 없습니다. 예를 들어 Genre{Action-Animation}을 입력하면 JMP에서 Genre{Drama&Horror&Thriller&Fantasy&Romance&Comedy-Action&Animation}도 입력합니다.

전체 효과 규칙을 사용하고 Genre 항 중 하나를 입력하면 모든 Genre 항이 입력됩니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).