プロファイル機能 > プロファイル > 変数重要度の評価
公開日: 11/25/2021

変数重要度の評価

プロファイルでは、変数重要度(variable importance)を計算できます。モデルの種類やあてはめの手法とは関係なく、このコマンドは使えます。プロファイルでの因子重要度の計算においては、あてはめたモデルは、応答変数の予測値を計算するためだけに使われます。各因子をそれぞれの範囲内で変化させることにより、応答変数に対する予測値の変動が算出されます。因子が変化したときに応答変数の予測値が大きく変動する場合、「モデルにおいてその因子は重要である」と判断できます。

メモ: プラットフォームによっては、[変数重要度の評価]は、「モデルのあてはめ」においてカテゴリカルな応答変数が3水準以上の場合には使用できません。

[変数重要度の評価]は、[グラフ]メニューから「予測プロファイル」を選択した場合にも使用できます。

詳細については、変数重要度の評価を参照してください。また、Saltelli(2002)も参照してください。

メモ: 変数重要度を評価するには、すべての列が同じデータテーブルに保存されている必要があります。

「変数重要度の評価」レポート

「変数重要度の評価」メニューには次のオプションがあり、それぞれ重要度の計算方法が異なります。

独立な一様分布の入力

因子ごとに、データの最小値と最大値で定義される一様分布の乱数を生成します。因子間に相関がなく、分析で求めた範囲全体に値が一様に分布すると想定できる場合は、このオプションを使用してください。また、制約や配合因子がない実験計画には、このオプションが適しています。

独立な標本再抽出の入力

モンテカルロ法を用いて、因子ごとにデータから標本を再抽出します。因子間には相関がないが、一様分布には従わないと想定できる場合は、このオプションを使用してください。

従属する標本再抽出の入力

因子間における相関を加味するため、最近傍法に基づいてデータを抽出します。データから計算された分散と共分散が、因子間に存在すると仮定されます。因子間に相関があると想定される場合は、このオプションを使用してください。このオプションは、標本サイズに強く左右されます。標本サイズが小さい場合は、結果の信頼性が低くなります。

メモ: [独立な標本再抽出の入力]と[従属する標本再抽出の入力]は、観察研究での使用を目的としています。後者のほうが前者よりも時間がかかりますが、多重共線性をより適切に扱うことができ、データから離れた領域を外挿しないという特徴があります。

線形制約が課された入力

因子ごとに、線形制約で定義される領域において一様分布の乱数を生成します。線形制約を指定するには、「予測プロファイル」で定義するか、または「実験計画(DOE)」のプラットフォームで予め定義してください。このオプションを選択し線形制約を課して乱数を生成したときも、乱数は最小および最大の観測値の範囲に制限されます。線形制約が存在し、その制約が入力の分布に影響を及ぼしていると思われる場合には、このオプションを使用してください。

これらのアルゴリズムの処理時間は、予測値を評価する計算時間に左右されます。一般的には[独立な一様分布の入力]が一番速く、[従属する標本再抽出の入力]が一番遅くなります。処理が終わらない場合は、[現在の重要度を適用]を選択して、途中で計算を打ち切ることもできます。

メモ: 変数重要度はモンテカルロ法の乱数によって求められます。このため、1回目に計算した場合と次に計算した場合とで、重要度が若干異なることがあります。

「変数重要度」レポート

[変数重要度の評価]の各オプションを選択すると、「要約レポート」と「周辺モデルプロット」が表示されます。変数重要度が計算されると、「予測プロファイル」において、変数重要度の大きい順に因子が並べ替えられます。複数の応答変数が指定されている場合は、「全体」レポートにおける「全効果」の大きい順に因子が並べ替えられます。また、複数の変数重要度が計算された場合、最後に実行したレポートの「全効果」の大きい順に因子が並び替えられます。

要約レポート

応答変数ごとに1つずつ、次の要素を示す表が作成されます。

対象となる因子。

主効果

該当する因子単独での重要度。他の因子との組み合わせではなく、因子単体の相対的な寄与度。

全効果

関係する他の因子と組み合わせた、全効果の重要度。該当する因子単体の効果と、組み合わせの効果をすべて加味した場合の相対的な寄与度。「全効果」の値は、棒グラフでも示されます。重みを参照してください。

主効果 標準誤差

モンテカルロ法における、主効果の重要度に対する標準誤差。この列は非表示になっています。表示するには、レポートを右クリックして[列]>[主効果 標準誤差]を選択します。デフォルトでは、この標準誤差が0.01未満になるまで標本抽出が継続されます。計算の詳細については、変数重要度の標準誤差を参照してください([従属する標本再抽出の入力]オプションでは、この列は表示されません)。

全効果 標準誤差

モンテカルロ法における、全効果の重要度に対する標準誤差。この列は非表示になっています。表示するには、レポートを右クリックして[列]>[全効果 標準誤差]を選択します。デフォルトでは、この標準誤差が0.01未満になるまで標本抽出が継続されます。計算の詳細については、変数重要度の標準誤差を参照してください([従属する標本再抽出の入力]オプションでは、この列は表示されません)。

重み

「全効果」の値を示すプロット。このプロットは表の右側に表示されます。このプロットの表示/非表示を切り替えるには、レポートを右クリックして[列]>[重み]を選択します。

関数評価が欠測値となった割合

モンテカルロ法による標本において、生成された入力値に対して予測値が計算できず、欠測値になってしまった割合。割合がゼロ以外の場合は、表の下部に注記としてこのメッセージが表示されます。

メモ: 応答変数を複数指定した場合、「要約レポート」には「全体」表がまず表示され、各応答変数の表がその後に続きます。「全体」レポートに表示される重要度は、全応答変数の重要度の平均値です。

周辺モデルプロット

「周辺モデルプロット」レポート(図3.37)には、行列形式でプロットが表示されます。行が応答変数を、列が因子を表します。因子は、重要度が大きい順に並べられます。この並び替えに使われる重要度は、「全体」表の「全効果」に表示されています。

周辺モデルプロットには、1つの因子ごとに、因子の値に対する周辺平均がプロットされています。この周辺平均が、主効果の重要度を計算するときに使われています。周辺平均プロットは、応答変数の断面を示すプロファイルとは異なります。周辺モデルプロットは、因子の主効果を理解するのに役に立ちます。

選択したシミュレーション方法によって、「周辺モデルプロット」にプロットされる値は異なります。また、シミュレートされた入力値に基づくため、滑らかな曲線にならない場合もあります。

赤い三角ボタンのメニューを使って、プロット上で以下の情報の表示/非表示を切り替えることができます。

推定値

因子の関数として、モンテカルロ法によって得られた値の平均値を滑らかに結んだ曲線です。

メモ: この平均値はモンテカルロ法の乱数に基づいているので、分析を実行するたびに値が異なります。

信頼区間

モンテカルロ法で得られた平均値の95%信頼区間です。信頼区間が狭すぎて見えないことがよくあるので、その場合はスケールを拡大してください。[従属する標本再抽出の入力]を選択したときは、このオプションは使用できません。

メモ: 信頼区間はモンテカルロ法の乱数に基づいているので、分析を実行するたびに値が異なります。

データ

因子の値に対する応答変数の実測値がプロットされます。これは乱数で得られるものではなく、実測値です。

「変数重要度」のオプション

「変数重要度」の赤い三角ボタンをクリックすると、次のようなオプションが表示されます。

因子を主効果の大きい順に並べ替え

「予測プロファイル」のセルを主効果の重要度(「主効果」の値)に基づいて並べ替えます。

因子を全効果の大きい順に並び替え

「予測プロファイル」のセルを全効果の重要度(「全効果」の値)に基づいて並べ替えます。

プロファイルの色付け

「プロファイル」のセルを「全効果」の重要度別に色付けします。重要度を赤から白のグラデーションで表します。

メモ: 「要約レポート」の行をクリックすると、データテーブルで該当する列が選択されるので、さらに分析を進めたい場合に便利です。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).