カテゴリカルな応答変数に対するブースティングツリーの例
この例では、ブースティングツリーによって、どの印刷物に「印刷縞」と呼ばれる不良が生じるかを予測します。
1.
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Bands Data.jmp」を開きます。
3.
「印刷縞の有無」を選択し、 [Y, 目的変数]をクリックします。
4.
「Predictors」列グループを選択し、[X, 説明変数]をクリックします。
5.
「検証データの割合」に「0.2」と入力します。
6.
[OK]をクリックします。
7.
(オプション)「再現性」パネルで、[マルチスレッドをオフにする]を選択し、「乱数シード値」として「123」を入力します。
8.
[OK]をクリックします。
図7.2 名義尺度の目的変数の全体の統計量
目的変数とする「印刷縞の有無」がカテゴリカルであるため、「指標」に「誤分類率」が含まれ、「混同行列」レポートが作成されます。検証セットの誤分類率は0.2222、およそ22%です。
9.
「印刷縞の有無のブースティングツリー」の赤い三角ボタンをクリックし、 [ツリーの表示]>[名前・カテゴリ・推定値の表示]を選択します。
図7.3 ブースティングツリーの層1
10.
「印刷縞の有無のブースティングツリー」の赤い三角ボタンをクリックし、 [列の保存]>[予測式の保存]を選択します。
「確率(印刷縞の有無==noband)」「確率(印刷縞の有無==band)」「最尤 印刷縞の有無」という3つの列が データテーブルに追加されます。「確率(印刷縞の有無==noband)」の列を調べ、モデルの予測値が層からどのように計算されたかを確認してみてください。