이변량 플랫폼에서 "선형 적합", "다항식 적합" 또는 "특수 적합" 옵션을 사용하여 회귀 모형을 적합시킵니다. 여러 모형을 적합시킨 후 산점도에서 적합을 비교할 수 있습니다.
그림 5.8 선형 적합 및 다항식 적합의 예
"선형 적합"과 "다항식 적합 차수" 메뉴의 옵션에 대한 자세한 내용은 이변량 적합 옵션에서 확인하십시오. 통계 상세 정보는 선형 적합 옵션에 대한 통계 상세 정보에서 확인하십시오.
이변량 플랫폼에는 선택한 각 적합에 대한 보고서가 있습니다. "선형", "다항식" 및 "변환된 적합" 보고서에는 각각 적합 방정식이 있는 텍스트 상자가 포함되어 있습니다. 각 적합 보고서에는 적합 요약, ANOVA(분산 분석) 및 모수 추정값 테이블이 포함되어 있습니다. 데이터에 반복 실험이 있는 경우 적합 결여에 대한 네 번째 테이블이 나타납니다. 변환된 Y 변수에 대한 적합에는 원래 척도 테이블의 적합 측도 요약이 포함됩니다.
이변량 플랫폼 적합 보고서의 "적합 요약" 테이블에는 모형 적합의 수치 요약이 포함됩니다. "적합 요약" 테이블 위에 적합 방정식이 표시됩니다.
그림 5.9 적합 요약 테이블
"적합 요약" 테이블에는 다음 통계량이 포함됩니다.
R²
모형에 의해 설명된 변동의 비율입니다. 나머지 변동은 랜덤 오차에 기인합니다. 모형이 완벽하게 적합되는 경우에는 R²이 1입니다. 자세한 내용은 적합 요약 보고서에 대한 통계 상세 정보에서 확인하십시오.
참고: R² 값이 낮으면 설명되지 않은 변동을 설명하는 변수가 모형에 없는 것일 수 있습니다. 하지만 데이터의 내재 변동 범위가 큰 경우에는 유용한 회귀 모형이라도 R² 값이 낮을 수 있습니다. 일반적인 R² 값에 대해 알아보려면 연구 영역의 문헌을 읽어 보십시오.
Adj-R²
모형의 모수 수에 맞게 수정된 R² 통계량입니다. 수정 R2 통계량을 사용하면 포함된 모수의 수가 다른 모형을 쉽게 비교할 수 있습니다. 자세한 내용은 적합 요약 보고서에 대한 통계 상세 정보에서 확인하십시오.
제곱근 평균 제곱 오차
랜덤 오차의 표준편차 추정값입니다. 이 값은 "분산 분석" 보고서에 표시된 오차 평균 제곱의 제곱근입니다(Figure 5.11).
반응 평균
반응 변수의 표본 평균(산술평균)입니다. 모형 효과가 지정되지 않은 경우에는 예측된 반응입니다.
관측값 수(또는 가중치 합)
적합을 추정하는 데 사용되는 관측값 수입니다. 가중치 변수가 있는 경우에는 가중치의 합계입니다.
이변량 적합 보고서의 "적합 결여" 테이블에는 적합 결여 검정의 결과가 포함됩니다. 적합 결여 검정은 반복된 X 값이 있고 모형이 포화되지 않은 경우에만 사용할 수 있습니다. 반복 실험에서 계산된 제곱합을 순수 오차라고 합니다. 이 값은 어떤 형태의 모형을 사용하더라도 설명하거나 예측할 수 없는 전체 오차의 비율입니다.
그림 5.10 선형 적합의 적합 결여 테이블
모형의 잔차와 순수 오차 사이의 차이를 적합 결여 오차라고 합니다. 모형이 잘못 지정된 경우 적합 결여 오차가 순수 오차보다 유의하게 클 수 있습니다. 잘못 지정된 모형은 데이터를 잘 설명하지 못하는 모형입니다. 적합 결여 검정의 귀무가설은 적합 결여 오차가 0이라는 것입니다. 따라서 p 값이 작으면 적합 결여가 유의함을 나타냅니다.
"적합 결여" 테이블에는 다음 열이 포함됩니다.
소스
변동의 소스로는 적합 결여, 순수 오차 및 총 오차의 세 가지가 있습니다.
DF
각 오차 소스의 DF(자유도)입니다.
– 총 오차 DF는 해당 ANOVA(분산 분석) 테이블의 오차 행에 나오는 자유도입니다. 자세한 내용은 분산 분석에서 확인하십시오. 총 오차 DF 값은 ANOVA 테이블에 있는 총 DF 값과 모형 DF 값 사이의 차이입니다. 오차 DF는 적합 결여의 자유도와 순수 오차의 자유도로 분할됩니다.
– 순수 오차 DF는 반복된 각 관측값 그룹에서 풀링된 것입니다. 자세한 내용은 적합 결여 보고서에 대한 통계 상세 정보에서 확인하십시오.
– 적합 결여 DF는 총 오차 DF와 순수 오차 DF 사이의 차이입니다.
제곱합
각 오차 소스의 SS(제곱합)입니다.
– 총 오차 SS는 해당 분산 분석 테이블의 오차 행에 나오는 제곱합입니다. 자세한 내용은 분산 분석에서 확인하십시오.
– 순수 오차 SS는 반복된 각 관측값 그룹에서 풀링된 것입니다. 순수 오차 SS를 DF로 나눈 값은 지정된 예측 변수 설정에서 반응의 분산을 추정합니다. 이 추정값은 모형의 영향을 받지 않습니다. 자세한 내용은 적합 결여 보고서에 대한 통계 상세 정보에서 확인하십시오.
– 적합 결여 SS는 총 오차 제곱합과 순수 오차 제곱합 사이의 차이입니다. 적합 결여 SS가 크다면 해당 모형이 데이터에 적절하지 않은 것일 수 있습니다.
평균 제곱
소스의 평균 제곱, 즉 제곱합을 DF로 나눈 값입니다. 순수 오차 평균 제곱에 비해 적합 결여 평균 제곱이 크면 모형이 잘 적합되지 않음을 나타냅니다. F 비는 공식 가설 검정을 수행하는 데 사용할 수 있습니다.
F 비
순수 오차 평균 제곱에 대한 적합 결여 평균 제곱의 비율입니다. F 비 값이 클수록 적합 결여 오차가 0일 가능성이 낮아집니다.
Prob > F
적합 결여 검정의 p 값입니다. 귀무가설은 적합 결여 오차가 0이라는 것입니다. p 값이 작으면 적합 결여가 유의함을 나타냅니다.
최대 R²
모형에서 모형의 변수만으로 얻을 수 있는 최대 R2 값입니다. 자세한 내용은 적합 결여 보고서에 대한 통계 상세 정보에서 확인하십시오.
이변량 적합 보고서의 "분산 분석" 테이블에는 적합 모형을 모든 예측값이 반응 평균과 동일한 모형과 비교하기 위한 계산이 포함됩니다. ANOVA(분산 분석) 테이블의 값은 모형의 유효성을 평가하기 위해 F 비를 계산하는 데 사용됩니다. F 비와 관련된 p 값이 작으면 해당 모형은 반응 평균만 사용할 때보다 데이터에 대한 적합도가 더 높은 것으로 간주됩니다.
그림 5.11 선형 적합의 분산 분석 테이블
"분산 분석" 테이블에는 다음 열이 포함됩니다.
소스
세 가지 변동 소스이며 모형, 오차 및 수정 합계 중 하나입니다.
DF
각 변동 소스에 대한 관련 DF(자유도)입니다. 수정 합계 DF는 항상 관측값 수에서 1을 뺀 값이며 다음과 같이 모형 자유도와 오차 자유도로 분할됩니다.
– 모형 DF는 모형 적합에 사용되는 모수(절편 제외)의 수입니다.
– 오차 DF는 수정 합계 DF와 모형 DF의 차이입니다.
제곱합
각 변동 소스에 대한 관련 SS(제곱합)입니다.
– 총(수정 합계) SS는 반응 값과 표본 평균 간의 차이에 대한 제곱합입니다. 이 값은 반응 값의 총 변동을 나타냅니다.
– 오차 SS는 적합된 값과 실제값 간의 차이에 대한 제곱합입니다. 이 값은 적합 모형에 의해 설명되지 않은 변동을 나타냅니다.
– 모형 SS는 수정 합계 SS와 오차 SS 간의 차이입니다. 이 값은 모형에 의해 설명된 변동을 나타냅니다.
평균 제곱
모형 및 오차 변동 소스에 대한 평균 제곱 통계량입니다. 각 평균 제곱 값은 제곱합을 해당 DF로 나눈 것입니다.
참고: 오차에 대한 평균 제곱의 제곱근은 "적합 요약" 테이블의 RMSE와 동일합니다.
F 비
모형 평균 제곱을 오차 평균 제곱으로 나눈 것입니다. F 비는 모형이 모든 예측값과 반응 평균이 동일한 모형과 유의하게 다른지 여부를 검정하기 위한 검정 통계량입니다. 적합의 기본 가설은 절편을 제외한 모든 회귀 모수가 0이라는 것입니다. 이 가설이 참이면 오차의 평균 제곱과 모형의 평균 제곱이 모두 오차 분산을 추정하며, 해당 비율은 F 분포를 따릅니다.
Prob > F
검정에 대한 관측된 유의 확률(p 값)입니다. p 값이 작으면 회귀 효과의 증거로 간주됩니다.
이변량 적합 보고서의 "모수 추정값" 테이블에는 모형 모수 추정값이 포함됩니다.
그림 5.12 선형 적합의 모수 추정값 테이블
"모수 추정값" 테이블에는 다음 열이 포함됩니다.
항
추정된 모수에 해당하는 모형 항입니다. 첫 번째 항은 절편입니다.
추정값
각 항에 대한 모수 추정값입니다. 이 값은 모형 계수의 추정값입니다.
표준 오차
모수 추정값의 표준 오차 추정값입니다.
t 비
각 모수가 0이라는 가설에 대한 검정 통계량입니다. 이 값은 표준 오차에 대한 모수 추정값의 비율입니다. 모형에 대한 일반적인 가정이 주어지면 t 비는 스튜던트 t 분포를 따릅니다.
Prob>|t|
실제 모수 값이 0이라는 검정에 반대되는 양측 대립가설에 대한 p 값입니다.
추가 통계량을 표시하려면 보고서에서 마우스 오른쪽 버튼을 클릭하고 열 메뉴를 선택합니다. 다음 통계량은 기본적으로 표시되지 않습니다.
95% 하한
모수 추정값에 대한 95% 신뢰 하한입니다.
95% 상한
모수 추정값에 대한 95% 신뢰 상한입니다.
표준화 베타
모든 항이 평균 0, 분산 1로 표준화된 회귀 모형의 모수 추정값입니다. 자세한 내용은 모수 추정값 보고서에 대한 통계 상세 정보에서 확인하십시오.
VIF
모형의 각 항에 대한 VIF(분산 팽창 계수)입니다. VIF 값이 높으면 모형의 항 사이에 공선성 문제가 있음을 나타냅니다.
설계 표준 오차
모수 추정값의 상대 분산 제곱근입니다. 자세한 내용은 모수 추정값 보고서에 대한 통계 상세 정보에서 확인하십시오.
이변량 적합 보고서의 "원래 척도에서 적합" 테이블에는 변환되지 않은 척도에서 측정된 모형 적합의 수치 요약이 포함됩니다. 이 테이블은 Y 변수가 변환된 경우에만 사용할 수 있습니다.