붓스트랩 포레스트 플랫폼 개요붓스트랩 포레스트 플랫폼은 많은 의사 결정 나무에서 예측된 반응 값의 평균을 구하여 반응 값을 예측합니다. 각 트리는 훈련 데이터의 붓스트랩 표본에서 성장합니다. 붓스트랩 표본은 복원 추출법을 사용한 관측값의 랜덤 표본입니다. 또한 예측 변수는 의사 결정 나무의 각 분할에서 표집됩니다. 의사 결정 나무는 파티션 모형에 설명된 재귀 분할 방법을 사용하여 적합됩니다.
다음은 훈련 데이터 집합에 대한 적합 프로세스입니다.
1. 각 트리에 대해 관측값의 붓스트랩 표본을 선택합니다.
2. 재귀 분할을 사용하여 각 의사 결정 나무를 적합시킵니다.
– 각 분할에 대한 랜덤 예측 변수 집합을 선택하고 집합에서 예측 변수의 순서를 랜덤화합니다.
– "붓스트랩 포레스트 규격" 창에 지정된 중지 규칙이 충족될 때까지 분할을 계속합니다.
3. "붓스트랩 포레스트 규격" 창에 지정된 트리 수에 도달하거나 조기 중지가 발생할 때까지 step 1와 step 2를 반복합니다.
개별 트리의 경우 트리를 적합시키는 데 사용되는 관측값의 붓스트랩 표본은 복원 추출됩니다. 표집할 관측값 비율을 지정할 수 있습니다. 관측값이 복원 추출되므로 관측값의 100%를 표집하도록 지정하는 경우 사용되지 않은 관측값의 기대 비율은 1/e 또는 약 36.8%입니다. 각 개별 트리에 대해 사용되지 않은 이러한 관측값을 Out-Of-Bag 관측값이라고 합니다. 트리를 적합시키는 데 사용된 관측값은 In-Bag 관측값이라고 합니다. 연속형 반응의 경우 붓스트랩 포레스트 플랫폼은 Out-Of-Bag 관측값의 오차율에 대한 측도를 제공합니다(Out-Of-Bag 오차).
연속형 반응의 경우 관측값의 예측값은 개별 트리 모음에 대한 예측값의 평균입니다. 범주형 반응의 경우 관측값의 예측 확률은 개별 트리 모음에 대한 예측 확률의 평균입니다. 관측값은 예측 확률이 가장 높은 수준으로 분류됩니다.
붓스트랩 포레스트에 대한 자세한 내용은 Hastie et al. (2009) 연구 자료에서 확인하십시오.