발행일 : 03/10/2025

교차 검증 보고서

이 보고서는 부분 최소 제곱에 대한 "모형 시작" 제어판에서 교차 검증 형식을 검증 방법으로 선택한 경우에만 나타납니다. 보고서 제목은 제어판에서 선택한 교차 검증 및 방법 옵션에 따라 동적으로 "<방법 = 방법 지정>"을 사용한 <교차 검증 방법>"으로 지정됩니다. 여기에는 "모형 시작" 제어판에 지정한 대로 0 ~ 추출된 최대 요인 수를 사용하여 모형 적합에 대한 요약 통계량이 표시됩니다. 또한 제곱근 평균 PRESS 값을 보여 주는 그림도 제공됩니다. 자세한 내용은 제곱근 평균 PRESS 그림에서 확인하십시오. 최적 요인 수는 최소 제곱근 평균 PRESS 통계량을 사용하여 식별됩니다.

그림 6.10 교차 검증 보고서 

Cross Validation Report

Image shown hereX 표준화 옵션을 선택하면 표준화가 전체 데이터 테이블에 한 번 적용됩니다. 개별 훈련 데이터 집합에 다시 적용되지는 않습니다. 그러나 중심화 또는 척도화 옵션 조합을 선택하면 이 선택 조합이 각 교차 검증 훈련 데이터 집합에 적용됩니다. 이러한 옵션을 선택한 경우 개별적으로 중심화 및 척도화되는 훈련 데이터 집합을 사용하여 교차 검증이 진행됩니다.

다음 통계량이 보고서에 표시됩니다. 검증 또는 교차 검증이 사용되는 경우 보고된 결과는 훈련 데이터 집합 통계량의 요약입니다.

요인 수

모형 적합에 사용된 요인 수입니다.

제곱근 평균 PRESS

모든 반응에 대한 PRESS 값 평균의 제곱근입니다. 자세한 내용은 제곱근 평균 PRESS에서 확인하십시오.

van der Voet T2

추출된 요인 수가 다른 모형이 최적 모형과 유의하게 다른지 여부를 검정하는 van der Voet 검정의 검정 통계량입니다. 각 van der Voet T2 검정에 대한 귀무가설은 해당 요인 수를 기반으로 하는 모형이 최적 모형과 다르지 않다는 것입니다. 대립가설은 모형이 최적 모형과 다르다는 것입니다. 자세한 내용은 van der Voet T2 검정에 대한 통계 상세 정보에서 확인하십시오.

Prob > van der Voet T2

van der Voet T2 검정의 p 값입니다. 자세한 내용은 van der Voet T2 검정에 대한 통계 상세 정보에서 확인하십시오.

Q2

다음과 같이 Y의 총 제곱합으로 나눈 PRESS 값 비율을 1에서 뺀 값으로 정의되는 무차원 예측 능력 측도입니다.

1 - PRESS/SSY

자세한 내용은 Q2 계산에서 확인하십시오.

누적 Q2

주어진 수 이하의 요인을 사용한 모형의 예측 능력을 나타내는 지표입니다. 주어진 요인 수 f에 대해 누적 Q2은 다음과 같이 정의됩니다.

Equation shown here(Pressi/SYYi)

여기서 PRESSiSSYii개 요인에 대한 값에 해당합니다.

R2X

지정된 요인에 의해 설명되는 X 변동의 백분율입니다. R2X가 큰 성분이 X 변수의 변동을 많이 설명합니다. 자세한 내용은 검증이 사용되는 경우 R2X 및 R2Y 계산에서 확인하십시오.

누적 R2X

주어진 요인 수를 사용한 모형에 의해 설명되는 X 변동의 백분율입니다. 이 값은 R2X 값의 합계입니다(i = 1 ~ 주어진 요인 수).

R2Y

지정된 요인에 의해 설명되는 Y 변동의 백분율입니다. R2Y가 큰 성분이 Y 변수의 변동을 많이 설명합니다. 자세한 내용은 검증이 사용되는 경우 R2X 및 R2Y 계산에서 확인하십시오.

누적 R2Y

주어진 요인 수를 사용한 모형에 의해 설명되는 Y 변동의 백분율입니다. 이 값은 R2Y 값의 합계입니다(i = 1 ~ 주어진 요인 수).

Q2 및 누적 R2Y 해석

Q2 및 누적 R2Y 통계량은 둘 다 예측 능력을 측정하지만 방식이 다릅니다.

누적 R2Y는 요인 수가 증가함에 따라 함께 증가합니다. 모형에 요인이 추가될수록 더 많은 변동이 설명되기 때문입니다.

Q2은 요인 수가 증가함에 따라 증가했다가 감소하거나, 적어도 증가를 중단하는 경향이 있습니다. 요인이 추가될수록 모형이 훈련 데이터 집합에 맞게 조정되고 새 데이터에 대해 잘 일반화되지 않아 PRESS 통계량이 감소하기 때문입니다.

Q2 및 누적 R2Y 분석은 모형에 포함할 요인 수를 결정하기 위해 van der Voet 검정 대신 사용할 수 있습니다. Q2이 크고 감소가 시작되지 않은 요인 수를 선택합니다. 누적 R2Y도 커야 합니다.

Figure 6.11에서는 Leave-One-Out 검증 방법을 사용하는 Penta.jmp 데이터 테이블의 요인 수에 대한 누적 R2Y 및 Q2 그림을 보여 줍니다. 누적 R2Y는 약 네 개 요인에 대해 증가 후 안정됩니다. Q2 통계량은 두 요인에 대해 가장 크고 그 이후에 안정되기 시작합니다. 이 그림은 요인이 두 개인 모형이 데이터를 과대적합하지 않고 Y 변동의 많은 부분을 설명한다는 것을 나타냅니다.

그림 6.11 Penta.jmp에 대한 누적 R2Y 및 Q2 

Cumulative R2Y and Q2 for Penta.jmp

제곱근 평균 PRESS 그림

이 막대 차트에는 요인 수가 가로 축에 표시되고 제곱근 평균 PRESS 값이 세로 축에 표시됩니다. 이는 교차 검증 보고서의 "제곱근 평균 PRESS" 열 오른쪽에 나타나는 가로 막대 차트와 동일합니다(Figure 6.10 참조).

제곱근 평균 PRESS

지정된 요인 수 a에 대한 제곱근 평균 PRESS는 다음 단계를 사용하여 계산됩니다.

1. 요인이 a개인 모형을 각 훈련 데이터 집합에 적합시킵니다.

2. 결과 예측 계산식을 검증 데이터 집합의 관측값에 적용합니다.

3. 각 Y에 대해 다음을 수행합니다.

각 검증 데이터 집합에 대해 관측된 각 검증 데이터 집합 값과 예측값 간의 차이 제곱을 계산합니다(제곱 예측 오차).

각 검증 데이터 집합에 대해 이러한 차이 제곱의 평균을 구하고 결과를 반응에 대한 분산 추정값으로 나눕니다. K 폴드 및 Leave-One-Out 검증 방법의 경우 전체 반응 열의 분산으로 나눕니다. 홀드백 검증의 경우 훈련 데이터 집합에 있는 반응 값의 분산으로 나눕니다.

이러한 평균을 합산하고 검증 데이터 집합이 두 개 이상인 경우 합계를 검증 데이터 집합 수 - 1로 나눕니다. 이 값이 주어진 Y에 대한 PRESS 통계량입니다.

4. a개 요인의 제곱근 평균 PRESS는 모든 반응에 대한 PRESS 값 평균의 제곱근입니다.

5. 여러 Y의 PRESS 통계량은 모든 반응에 대해 step 3에서 구한 PRESS 통계량의 평균을 계산한 값입니다.

Q2 계산

Q2 통계량은 1 - PRESS/SSY로 정의됩니다. PRESS 통계량은 훈련 데이터 집합을 기반으로 개발되었지만 검증 데이터 집합에서 평가된 모형의 모든 반응에 대해 평균을 구한 예측 오차 제곱합입니다. SSY 값은 모든 반응에 대해 평균을 구하고 검증 데이터 집합의 관측값을 기반으로 하는 Y의 제곱합입니다.

교차 검증 보고서의 Q2 통계량은 선택한 검증 방법에 따라 다음과 같은 방식으로 계산됩니다.

Leave-One-Out

Q2은 1 - 평균(PRESS)/평균(SSY) 값입니다. 각 Y에 대한 PRESS는 관측값을 한 번에 하나씩 제외하여 생성된 모형에서 계산됩니다. SSY는 각 Y 열의 모든 값에서 계산됩니다.

K 폴드

Q2은 각 K 폴드를 제외하여 생성된 K개 모형을 기반으로 한 검증 데이터 집합에 대해 계산되는 1 - PRESS/SSY 값의 평균입니다.

홀드백 또는 검증 데이터 집합

Q2은 단일 훈련 데이터 집합을 사용하여 생성된 모형을 기반으로 한 검증 데이터 집합에 대해 계산되는 1 - PRESS/SSY 값입니다.

검증이 사용되는 경우 R2X 및 R2Y 계산

교차 검증 보고서의 R2X 및 R2Y 통계량은 선택한 검증 방법에 따라 다음과 같은 방식으로 계산됩니다.

참고: 이러한 모든 계산에서 R2Y는 유사하게 계산됩니다.

Leave-One-Out

R2X는 관측값을 한 번에 하나씩 제외하여 생성된 모형에 대한 "X 효과에 대해 설명되는 변동 백분율" 값의 평균입니다.

K 폴드

R2X는 각 폴드를 제외하여 생성된 K개 모형에 대한 "X 효과에 대해 설명되는 변동 백분율" 값의 평균입니다.

홀드백 또는 검증 데이터 집합

R2X는 훈련 데이터를 사용하여 생성된 모형에 대한 "X 효과에 대해 설명되는 변동 백분율" 값입니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).