예측 및 전문 모델링 > 검증 열 생성 > 검증 열 생성 플랫폼 시작
발행일 : 03/10/2025

Image shown here검증 열 생성 플랫폼 시작

분석 > 예측 모델링 > 검증 열 생성을 선택하여 검증 열 생성 플랫폼을 시작합니다.

그림 12.3 검증 열 생성 시작 창 

Make Validation Column Launch Window

"열 선택"의 빨간색 삼각형 메뉴에 포함된 옵션에 대한 자세한 내용은 열 필터 메뉴JMP 사용에서 확인하십시오.

검증 열 생성 시작 창에는 다음과 같은 옵션이 있습니다.

층화 열

하나 이상의 층화 열을 할당합니다.

그룹화 열

하나 이상의 범주형 그룹화 열을 할당합니다.

절단점 열

숫자 절단점 열을 할당합니다.

절단점 배치 ID

절단점 열이 할당되면 절단점 배치 ID 열도 할당할 수 있습니다. 이렇게 하면 "절단점 배치 ID" 열의 각 수준 내에서 절단점 값을 결정할 수 있습니다.

선택된 방법

세 가지 검증 방법을 제공합니다.

검증 열 생성

지정된 층화, 그룹화 및 절단점 열을 기반으로 검증 열을 생성합니다. 지정된 층화, 그룹화 및 절단점 열에 의해 결정된 검증 열 방법이 상자 아래에 설명됩니다. 방법을 선택하고 "확인"을 클릭한 후 "검증 열 생성" 보고서에서 각 집합에 대한 할당을 지정합니다. 자세한 내용은 비율 또는 상대 비율 지정절단점 설정에서 확인하십시오. 홀드백 집합을 구성하는 방법에는 5가지가 있습니다. 절단점 검증을 제외한 모든 방법은 K 폴드 검증을 위한 폴드를 생성하는 데도 사용됩니다. 자세한 내용은 K 폴드 검증 열 생성에서 확인하십시오.

랜덤 검증 열

시작 창에서 열을 할당하지 않은 경우 기본 방법입니다. 이 방법은 "검증 열 생성" 보고서에 입력한 할당 방식에 따라 데이터를 집합 또는 폴드로 분할합니다.

층화 검증 열

하나 이상의 층화 열을 할당한 경우 선택된 방법입니다. 이 방법은 지정된 층화 열의 수준에 따라 균일한 비율로 데이터 집합을 분할합니다. "랜덤 검증 열" 방법과 마찬가지로 "검증 열 생성" 보고서에 입력한 할당 방식에 따라 행이 홀드백 집합 또는 폴드에 랜덤 할당됩니다. 그러나 이 방법은 층화 열의 각 수준 또는 수준 조합에서 수행됩니다. 각 훈련, 검증 및 테스트 데이터 집합 또는 K 폴드 교차 검증의 각 폴드에서 열 수준을 균일한 비율로 나타내려면 이 방법을 사용합니다.

그룹화 검증 열

하나 이상의 그룹화 열을 지정한 경우 선택된 방법입니다. 이 방법은 지정된 열의 전체 수준 또는 둘 이상 열의 수준 조합이 동일한 집합이나 폴드에 배치되도록 데이터 집합을 분할합니다. 이 때문에 결과 집합의 크기는 사용자가 지정한 크기와 약간 다릅니다. 홀드백 집합 또는 폴드 간에 수준을 분할하는 것이 적절하지 않은 경우 이 옵션을 사용합니다.

그룹별 층화 검증 열

층화 열과 그룹화 열을 둘 다 지정한 경우 선택된 방법입니다. 이 방법은 층화 열 간에 수준 균형을 맞추면서 지정된 그룹이 동일한 홀드백 집합 또는 폴드에 함께 유지되는 방식으로 데이터를 분할합니다. "그룹화 검증 열"과 마찬가지로 그룹을 지정된 열의 수준 또는 둘 이상 열의 수준 조합으로 생성할 수 있습니다. 결과 집합의 크기는 사용자가 지정한 크기와 약간 다릅니다.

절단점 검증 열

절단점 열을 지정한 경우 선택된 방법입니다. 이 방법은 시계열 절단점에 따라 데이터 집합을 분할합니다. 기간에 따라 홀드백 집합에 데이터를 할당하려는 경우 이 옵션을 사용합니다. 훈련 데이터 집합은 첫 번째 절단점과 두 번째 절단점 사이의 행으로 구성됩니다. 검증 데이터 집합은 두 번째 절단점과 세 번째 절단점 사이의 행으로 구성됩니다. 테스트 데이터 집합은 나머지 행으로 구성됩니다. 이러한 집합은 "절단점 설정" 보고서의 옵션을 기반으로 선택됩니다.

자동 검증 테이블 생성

원래 데이터 테이블의 행에 연결된 원래 데이터 테이블의 복제 행을 포함하는 새 데이터 테이블을 생성합니다. 교차 검증에 사용할 수 있는 새 데이터 테이블에는 다음과 같은 네 개의 추가 열이 있습니다.

Valid Set

원래 데이터에 0을 할당하고 복제 데이터에 1을 할당합니다. 이 열의 값은 훈련 데이터 집합과 검증 데이터 집합을 지정합니다. 분석 시작 창의 "검증" 역할에 이 열을 사용합니다.

Valid ID

원래 관측값의 행 번호를 할당합니다. 이렇게 하면 각 원래 관측값에 대한 훈련 데이터 집합 행과 검증 데이터 집합 행을 일치시킬 수 있습니다.

Valid Weight

분석 시작 창의 "빈도" 역할에 사용할 자동 검증 가중치를 할당합니다. Valid ID의 각 값에 대해 훈련 관측값과 검증 관측값에 대한 동일한 균등 난수가 생성됩니다. 훈련 데이터 집합의 경우 Valid Weight가 다음과 같이 계산됩니다.

Valid Weight = -log(1 - Valid Uniform)

검증 데이터 집합의 경우 Valid Weight가 다음과 같이 계산됩니다.

Valid Weight = -log(Valid Uniform)

Valid Weight 열은 훈련 데이터 가중치가 검증 데이터 가중치와 음의 상관관계를 갖도록 구성됩니다. 이렇게 하면 검증 데이터의 적합 차이로 인해 적합 방법에 대한 효과적인 교차 검증이 가능합니다.

Null Factor

Valid ID의 각 값에 대해 동일한 정규 난수를 할당합니다.

팁: 부분집합을 훈련 데이터로 사용하면 추정 문제가 발생할 수 있는 작은 데이터 테이블의 경우 "자동 검증 테이블 생성"을 사용하십시오.

K 폴드 검증 열 생성

지정된 층화 및 그룹화 열을 기반으로 네 개 이상의 범주가 있는 검증 열을 생성합니다. 각 범주는 K 폴드 교차 검증에 사용할 폴드를 나타냅니다. Y 열은 행 순서를 지정하는 데 사용되며 각 행은 폴드에 순차적으로 할당됩니다. 지정된 층화 및 그룹화 열에 의해 결정된 검증 열 방법이 상자 아래에 설명됩니다. 이러한 방법은 검증 열 생성에서 설명한 방법과 동일합니다. 방법을 선택하고 "확인"을 클릭한 후 "검증 열 생성" 보고서에서 폴드 수 K를 지정합니다. 자세한 내용은 폴드 수 설정에서 확인하십시오.

결측값

층화, 그룹화 또는 절단점 열의 결측값은 해당 행에 대한 검증 열의 결측값이 됩니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).