「ブートストラップ森」プラットフォームの別例この例では、調整計画テーブルを使用してブートストラップ森モデルを構築し、調査対象集団における男性の体脂肪率を予測します。
Space Filling実験計画を使用して、調整計画テーブルを作成します。
1. [実験計画(DOE)]>[特殊な目的]>[Space Filling計画]を選択します。
次に、調整変数を「因子」セクションに追加します。
2. [連続変数]をクリックし、「X1」を「ツリー数」に変更して、値を「10」~「100」に設定します。
3. [連続変数]をクリックし、「X2」を「項の数」に変更して、値を「5」~「10」に設定します。
4. [連続変数]をクリックし、「X3」を「ブートストラップの抽出割合」に変更して、値を「0.8」~「1」に設定します。
5. [連続変数]をクリックし、「X4」を「ツリーあたりの最小分岐数」に変更して、値を「5」~「10」に設定します。
6. [連続変数]をクリックし、「X5」を「分岐の最小サイズ」に変更して、値を「4」~「6」に設定します。
図5.12 Space Filling計画の調整パラメータ
メモ: 乱数シード値(step 7)と開始点の数(step 8)を設定すると、以下の数値例と同じ結果が得られます。なお、同じ結果でなくても良い場合は、上記の手順を行う必要はありません。
7. (オプション)「Space Filling計画」の赤い三角ボタンをクリックし、[乱数シード値の設定]を選択します。次に、「123」と入力して[OK]をクリックします。
8. (オプション)「Space Filling計画」の赤い三角ボタンのメニューから[開始点の数]を選択し、「5」と入力して[OK]をクリックします。
9. [続行]をクリックします。
10. 「実験の回数」を「10」に設定します。
メモ: 実際のSpace Filling計画では通常、これよりも多くの回数を使用します。この例では実行時間を最小限に抑えるために10を使用します。
11. [一様]をクリックして一様計画を生成します。この計画では、5つの変数の値が計画領域全体に分散された10回の実行が調整テーブルに含まれます。
12. [テーブルの作成]をクリックして調整計画テーブルを生成します。
図5.13 調整計画テーブル
メモ: 調整計画テーブルでの値は、ブートストラッププラットフォームで使用できるように整数に丸められます。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Equity.jmp」を開きます。
2. [分析]>[予測モデル]>[ブートストラップ森]を選択します。
3. 「BAD」を選択し、[Y, 目的変数]をクリックします。
4. 「LOAN」から「DEBTINC」までを選択し、[X, 説明変数]をクリックします。
5. 「検証データの割合」に「0.25」と入力します。
6. [OK]をクリックします。
7. 「ブートストラップ森の指定」ウィンドウの「複数のあてはめ」セクションで「調整計画テーブルを使用する」を選択します。
8. (オプション)「ブートストラップ森の指定」ウィンドウの「再現性」セクションで、「乱数シード値」を「123」に設定します。
9. [OK]をクリックします。
10. 「調整計画テーブルの選択」ウィンドウで目的のSpace Filling一様計画テーブルを選択し、[OK]をクリックします。
調整計画テーブルの設定を使用して、10個のブートストラップ森が構築されます。すべてのあてはめの要約テーブルと、最良のモデルの詳細が表示されます。
図5.14 10個のモデルに対するレポート
「検証セットでのモデル要約」レポートには、検証セットの要約統計量が示されています。検証セットはデータの25%に設定されていたことを思い出してください。「検証セットでのモデル要約」の最初に記載されている森は58本のツリーを持ち、かつ1分岐あたり8つの項が抽出されており、検証時のエントロピーR2乗値が0.5592で最も高い値を示しています。このモデルが10個の森の中で最もよくあてはまるものとして選択され、「全体の統計量」セクションにこの森の適合度が表示されています。
ヒント: 「検証セットでのモデル要約」の表を右クリックし、[データテーブルに出力]を選択すると、モデルの適合度に対する調整パラメータの影響を調べることができます。