バギング(Bagging; Bootstrap Aggregating)は、予測精度を高めたり、予測の信頼性を確認したりするための手法です。ニューラルネットワークや、分類木・回帰木などの、不安定なモデルに対して特に役立ちます。
バギングでは、元データから復元抽出をM回行います。抽出されたデータセットのサイズは、元のデータセットのサイズと同じです。次に、抽出された各データセットにモデルをあてはめます。その結果、元のデータセットの各行に対してM個の予測が生成されます。最終的な予測値は、M個の予測の平均値になります。
バギングは、多くの分析プラットフォームで使用できます。バギングを使用するには、「予測プロファイル」の赤い三角ボタンをクリックし、メニューから[バギング予測の保存]を選択します。「バギング」ウィンドウが開き、次のオプションが表示されます。
バギングを実行すると、元のデータテーブルに新しい列が自動的に作成されます。M個のバギング予測のセットは、非表示の列として保存されます。最終的な予測値は、「予測式 <列名> バギング平均」という列名で保存されます。最終的な予測値の標準偏差は、「標準偏差 <列名> バギング」という列名で保存されます。最終的な予測値の標準誤差は、「標準誤差 <列名> バギング平均」という列名で保存されます。標準誤差は、標準偏差をで割った値です。なお、「<列名>」は、バギングの対象となっている応答変数の列名です。
図2.16 バギングの列