배깅"예측 프로파일러"의 빨간색 삼각형 메뉴를 통해 사용할 수 있는 붓스트랩 집계(배깅)는 예측 성능을 향상시키는 동시에 예측 신뢰도에 대한 정보를 얻을 수 있는 기법입니다. 배깅은 신경망, 분류 트리 및 회귀 트리를 포함한 불안정한 방법에 특히 유용합니다.
배깅은 원래 데이터에서 복원 표집 방식으로 M개의 훈련 데이터 집합을 생성합니다. 모든 훈련 데이터 집합의 크기는 원래 데이터 집합과 동일합니다. 각 훈련 데이터 집합에 대해 분석 플랫폼을 사용하여 모형이 적합되고 예측이 수행됩니다. 따라서 원래 데이터 집합의 각 관측값에 대해 총 M개의 예측이 생성됩니다. 최종 예측은 M개 예측의 평균입니다.
배깅은 많은 분석 플랫폼에서 사용할 수 있습니다. 배깅을 사용하려면 "예측 프로파일러"의 빨간색 삼각형 메뉴에서 배깅된 예측 저장을 선택합니다. 다음과 같은 배깅 옵션이 포함된 창이 나타납니다.
붓스트랩 표본 수
데이터를 재표집하여 모형을 생성할 횟수를 설정합니다. 값이 클수록 예측이 더 정확합니다. 기본적으로 붓스트랩 표본 수는 100입니다.
난수 시드값
현재 결과를 복제하기 위해 배깅 분석의 이후 런에서 다시 입력할 수 있는 난수 시드값을 설정합니다. 기본적으로 시드값은 설정되어 있지 않습니다.
부분 가중치
베이지안 배깅 분석을 수행합니다. 붓스트랩을 반복할 때마다 각 관측값에 0이 아닌 가중치가 할당됩니다. 예측을 수행하는 모형은 가중 관측값을 사용합니다. 기본적으로 "부분 가중치" 옵션이 선택되지 않으며 단순 배깅 분석이 수행됩니다.
팁: 분석에 사용되는 관측값 수가 적거나, 로지스틱 회귀 설정 시 분리가 우려되는 경우에 "부분 가중치" 옵션을 사용하십시오.
"부분 가중치"를 선택했다고 가정해 보겠습니다. 붓스트랩을 반복할 때마다 보고서에 사용되는 각 관측값에 0이 아닌 가중치가 할당됩니다. 이러한 가중치의 합은 n, 즉 모형에 사용되는 관측값 수입니다. 가중치의 계산 및 사용 방법에 대한 자세한 내용은 기본 분석의 부분 가중치에 대한 통계 상세 정보에서 확인하십시오.
예측 계산식 저장
이 옵션은 배깅된 각 예측에 대해 해당 예측을 수행하는 데 사용된 계산식을 열 특성에 저장합니다. 배깅을 제공하는 일부 분석 플랫폼에서만 이 옵션을 사용할 수 있습니다.
참고: "예측 계산식 저장"을 사용할 수 없는 경우 예측값만 저장된다는 노트가 나타납니다.
배깅은 자동으로 원래 데이터 테이블에 새 열을 생성합니다. 총 M개의 배깅된 예측 집합은 숨겨진 열로 저장됩니다. 최종 예측은 "예측 계산식 <열 이름> 배깅된 평균" 열에 저장됩니다. 최종 예측의 표준편차는 "표준 오차 <열 이름> 배깅된 평균" 열에 저장됩니다. 배깅된 평균의 표준 오차는 "<열 이름> 붓스트랩 표준 오차" 열에 저장됩니다. 표준 오차는 표준편차를
로 나눈 값입니다. 여기서 <열 이름>은 보고서에서 배깅된 열을 식별합니다.
표준 오차는 예측 정밀도에 대한 정보를 제공합니다. 표준 오차가 매우 작으면 해당 관측값에 대한 예측이 정확하다는 것을 나타냅니다. 배깅에 대한 자세한 내용은 Hastie et al. (2009)에서 확인하십시오.
그림 3.18 배깅 열