「ブートストラップ森」プラットフォームの概要

「ブートストラップ森」プラットフォームは、複数のディシジョンツリー（決定木）における応答の予測値を平均することによって応答を予測します。各ディシジョンツリーは、学習データからのブートストラップ標本から求められます。ブートストラップ標本は、元データから無作為に復元抽出したものです。無作為抽出されたデータにディシジョンツリーをあてはめていく処理を何度も行います。さらに、各ディシジョンツリーの各分岐において、説明変数も無作為抽出されます。各ディシジョンツリーは、パーティションで説明している手法によって求められます。

学習セットに対して、以下のようにモデルがあてはめられます。

1. 学習セットからブートストラップ標本を抽出します。

2. その抽出された標本に対して、ディシジョンツリーをあてはめます。

– この際、各分岐において、説明変数も無作為に選択します。

– 「ブートストラップ森の指定」ウィンドウで指定されている停止ルールの条件が満たされるまで、分岐を続けます。

3. 「ブートストラップ森の指定」ウィンドウで指定されているツリー数に達するまで、または早期打ち切りが発生するまで、ステップ1とステップ2を繰り返します。

ブートストラップ標本の抽出には、復元抽出が使用されます。抽出されるデータ行の割合は指定できます。100%のデータ行が抽出されるように指定した場合は、各復元抽出において1度も抽出されないデータ行の割合は、およそ1/e（約36.8%）です。各抽出において、これらの抽出されなかったデータ行は「バッグ外標本（out-of-bag）」と呼ばれます。逆に、1度以上、抽出されたデータ行は「バッグ内標本（in-bag）」と呼ばれます。応答変数が連続尺度である場合、「ブートストラップ森」プラットフォームはバッグ外標本から計算される統計量（「バッグ外誤差（out-of-bag error）」という）も求めます。

応答変数が連続尺度である場合、あるデータ行における最終的な予測値は、個々のディシジョンツリーにおける予測値をまとめて平均したものです。応答変数がカテゴリカルな場合、最終的な予測確率は、個々のツリーにおける予測確率をまとめて平均したものです。そして、各データ行は、その最終的な予測確率が最も高い水準に分類されます。

ブートストラップ森の詳細については、Hastie et al.（2009）を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).