「推定法」のオプション

基本的な回帰モデル > 一般化回帰モデル > 「モデルの設定」パネル > 「推定法」のオプション

公開日: 11/25/2021

「推定法」のオプション

「一般化回帰」で利用可能な推定法は、罰則や変数選択のない推定法、ステップワイズ法による変数選択、罰則付き回帰に分類できます。

［最尤法］、［標準最小2乗法］、［ロジスティック回帰法］は、「モデルのあてはめ」起動ウィンドウで指定されたモデルをそのままあてはめます。このとき変数の選択は行われません。これらで推定されたモデルは、他の方法と比較するための基準になります。

メモ: ［最尤法］、［標準最小2乗法］、［ロジスティック回帰法］の結果は、1つのレポートにおいて１つだけが表示されます。［最尤法］、［標準最小2乗法］、［ロジスティック回帰法］のいずれになるかは、「モデルのあてはめ」起動ウィンドウで指定された分布で決まります。

変数減少法、変数増加法、減少付き変数増加法、総あたり法、2段階変数増加法は、1つ1つのステップにおいて、モデルに変数を追加したり、モデルから変数削除したりします。ただし、回帰係数に対する罰則は課せられません。

Dantzig選択器、Lasso、弾性ネット、リッジ、ダブルLassoの各方法は、罰則付き回帰分析です。これらの手法では、回帰係数の大きさを小さくすることにより、推定値の分散を減少させ、モデルの予測精度を向上させます。

メモ: データに強い多重共線性が見られる場合、適応型推定ではあまり良い結果が出ません。なぜなら、適応型推定では最尤推定値が良い推定値であると仮定されているためです。このようなケースでは、［適応型］オプションの使用は推奨しません。

これらの方法で使われる罰則項には、次のような種類があります。

• l1ペナルティ。回帰係数の絶対値の合計を、罰則項とします。

• l2ペナルティ。回帰係数の2乗の合計を、罰則項とします。

通常のデータテーブルに関するデフォルトの推定法は、Lassoです。ただし、データテーブルに「DOEスクリプト」が保存されており、計画行列が特異でない場合、デフォルトの推定法として、「階層関係」オプションを有効にした変数増加法が設定されます。また、データテーブルに「DOEスクリプト」が保存されており、計画行列が特異である場合、デフォルトの推定法として、「階層関係」オプションを有効にした2段階変数増加法が設定されます。

「推定法」では、次のいずれかを選択できます。

変数選択や罰則がない推定法

最尤法

最尤法によってパラメータを推定します。罰則は課しません。分位点回帰で選択できるオプションは、［最尤法］のみです。なお、「モデルのあてはめ」起動ウィンドウで「検証」列を指定した場合は、モデルの推定に使われるデータは学習セットだけです。以下の条件を満たしている場合、「最尤法」レポートがデフォルトで表示されます。

– 説明変数の間に一次従属性がない。

– 説明変数の個数よりもデータの行数が多い。

– 説明変数の個数が250個以下である。

推定法として［最尤法］オプションを選択した場合、応答変数に対して指定された確率分布を仮定して、通常の最尤推定が行われます。最尤推定の結果は、罰則を課した場合の結果と比べるための出発点になるでしょう。

［最尤法］を選択しても、［正規］分布を指定した場合は「標準最小2乗」が推定として使われます。また、［二項］分布を指定した場合は、レポート名が「ロジスティック回帰」となります。

標準最小2乗

応答変数の確率分布として正規分布を指定すると、最尤法ではなく、標準最小2乗法が使用されます。デフォルトでは、通常の標準最小2乗法の結果を含んだ「標準最小2乗」レポートが作成されます。

ロジスティック回帰

応答変数の確率分布として二項分布を指定した場合、ロジスティック回帰モデルがあてはめられます。デフォルトでは「ロジスティック回帰」レポートが作成されます。この「ロジスティック回帰」レポートの結果は、最尤法によって推定されています。

ステップワイズ法による変数選択

メモ: ［多項］分布を指定した場合は、ステップワイズ法による変数選択は使用できません。

変数減少法

変数減少法により変数選択を行い、パラメータを推定します。変数減少法で選択されていったモデルのなかから、指定の「検証法」に基づいて最良のモデルが選択されます。変数減少法は、開始時にはモデルの効果をすべて含み、切片だけのモデルになるまでステップごとに効果を１つ除去していきます。それぞれのステップでは、除去するパラメータを決定するのに、各パラメータに対するWald検定が使用されます。

注意: 変数減少法で使用される「パラメータ推定値の経路」での横軸における進め方は、他の推定法における方向とは逆になっています。したがって、変数減少法では、推定法の「パラメータ推定値の経路」で左から右にステップは進められていきます。変数減少法では、各ステップにおいて、項はモデルに追加されていくのではなく、削除されていきます。

変数増加法

変数増加法により変数選択を行い、パラメータを推定します。それぞれのステップでは、追加するパラメータを決定するのに、各パラメータに対するスコア検定が使用されます。変数増加法で選択されていったモデルのなかから、指定の「検証法」に基づいて最良のモデルが選択されます。

変数選択の候補となる項として交互作用項があり、「階層関係」オプションが選択されている場合、交互作用項およびそれに関係する項をまとめて検定が行われます。これは次のように処理されます。所定のステップにおいて最も有意なスコア検定の効果が効果の親子関係（階層関係）を破る場合、交互作用項およびそれに関係する項が複合して考慮されます。複合的な検定では、最も有意なスコア検定である効果だけではなく、階層関係を満たすのに必要な他の重要ではない効果をすべて含んで検定します。もしもその複合的な検定が最も有意なスコア検定であるならば、検定対象の効果（その交互作用項およびそれに関係するすべての項）がモデルに追加されます。

減少付き変数増加法

変数増加と変数減少を組み合わせて変数選択を行い、パラメータを推定します。このアルゴリズムは、切片だけのモデルから開始します。最初のステップで、スコア検定において最も有意な効果がモデルに追加されます。最初のステップ後、それぞれのステップで次の3つの可能性を検討します。

1. モデルに含まれていない効果のなかから、スコア検定において最も有意な効果を追加する。

2. モデルに含まれている効果から、Wald検定において最も有意ではない効果を削除する。

3. 1つのステップ内において上記2つの処理を両方とも行う。

各ステップにおいて上記3つのうちのどの動作を行うかを決めるために、指定された「検証法」を使用します。たとえば、検証法がBICの場合はBICが最小となる動作を選択します。交互作用があり、かつ「階層関係」オプションが選択されている場合、効果を追加するときには複合している効果が考慮されます。しかし、削除するときには複合している効果は考慮されません。

モデルが飽和している場合にはモデルから効果を削除することを試み、モデルが向上するかどうかを確認します。このアルゴリズムの最大ステップ数は、パラメータ数の5倍です。最終的に選択されたモデルは、指定の「検証法」において最良となっているモデルです。

減少付き変数増加法は、「ステップワイズ法」手法における「変数増減法」オプションに似ています。ただし、モデルに変数を追加したり、モデルから変数を作事したりするときにp値を使用していません。

ヒント: ［早期打ち切り］オプションは、減少付き変数増加法で使用することは推奨しません。

総あたり法

モデルに含める効果の個数をステップごとに増加させていきます。それぞれのステップで、そのステップ数に対応した個数の効果を持つ、可能なすべてのモデルから最良のモデルが選択されます。「パラメータ推定値の経路」のプロットの横軸における値は、モデルに含まれる効果の個数になっています。ステップ0では、切片だけのモデルがあてはめられます。ステップ1は、効果を１つだけ含むモデルのなかで最良のモデルを表しています。ステップは、「モデルの設定」レポートの「詳細設定」で「効果の最大個数」の値まで続けられます。詳細設定を参照してください。

ヒント: 総あたり法は、計算量が膨大になります。大規模な問題には推奨できません。

2段階変数増加法

（モデルに2次以上の効果が含まれている場合のみ使用できます。）効果を2段階で選択します。第1段階では、主効果を変数増加法により選択し、モデルに残す主効果を決定します。第2段階では、第1段階で残った主効果だけで高次の効果を構成し、そのすべてに対して変数増加法を適用します。この手法では、効果に強い親子関係（strong effect heredity）があると仮定されます。

第1段階でモデルに含まれなかった主効果は、「パラメータ推定値」レポートにゼロの項として表示されます。そして、第2段階における変数選択では無視されます。第1段階で選択された項は、第2段階のモデルに強制的に含まれるわけではなく、選択肢として考慮されるに過ぎません。

罰則付き推定

Dantzig選択器

（［分布］で［正規］を選択し、［切片なし］オプションが選択されていないときのみ使用できます。）線形計画法を使用し、l1ペナルティを適用してパラメータ推定値を計算します。Candes and Tao（2007）を参照してください。Dantzig選択器は、実験計画に基づくデータを分析するのに役立ちます。直交計画で得られたデータにおいては、Dantzig選択器とLassoが同じ結果になります。Dantzig選択器を参照してください。

Lasso

回帰係数の絶対値の和（l1ぺナルティ）を罰則項として、パラメータを推定します。l1ぺナルティがもつ性質により、一部のパラメータ推定値が0になりやすい傾向をもちます。したがって、この推定法は、パラメータの縮小だけではなく、変数選択も同時に行います。通常のLassoは、すべての回帰パラメータに対して均等に罰則を課します。

適応型Lasso

回帰係数の絶対値を重み付けた和（重み付きのl1ペナルティ）を罰則項として、パラメータを推定します。l1ペナルティのこの罰則項は、モデルが預言的性質をもつように、データから決定されます（Zou, 2006）。このオプションは、最尤推定値を使ってl1ペナルティに重みを付けます。なお、説明変数の個数が標本サイズより多い場合や、説明変数間に1次従属性がある場合、最尤推定値は計算できません。そのような状況で最尤推定値が計算できない場合、一般化逆行列またはリッジ回帰の解がl1ペナルティの重みとして使用されます。適応型手法を参照してください。

Lassoと適合型Lassoは、説明変数が強く相関している場合、パラメータの少ないモデルを選びます。これらの手法では、強く相関している説明変数のなかからいずれかの説明変数を1つだけ選択する傾向があります。説明変数の間に強い相関があるなら、Lassoではなく弾性ネットの方が適しているかもしれません。Lasso回帰を参照してください。

弾性ネット

l1ペナルティとl2ペナルティの両方を組み合わせたものを罰則項として、パラメータを推定します。l1ペナルティは、変数選択の性質をもちます。一方、l2ペナルティは、リッジ回帰と同じ性質をもちます。

適応型弾性ネット

l1ペナルティとl2ペナルティの両方を組み合わせ、かつ、適応型の罰則項を用いて、パラメータを推定します。このオプションは、最尤推定値を使ってl1ペナルティに重みを付けます。なお、説明変数の個数が標本サイズより多い場合や、説明変数間に1次従属性がある場合、最尤推定値は計算できません。そのような状況で最尤推定値が計算できない場合、一般化逆行列またはリッジ回帰の解がl1ペナルティの重みとして使用されます。なお、「詳細設定」パネルにおいて「弾性ネットのアルファ」の値を変更することができます。適応型手法を参照してください。

説明変数の間に強い相関があるなら、予測精度の点で、Lassoよりも弾性ネットの方が優れています（なお、リッジ回帰とLassoは、どちらも弾性ネットの特殊形です）。多くの場合、適応型弾性ネットの方が、弾性ネットや適応型Lassoよりも予測精度が優れています。弾性ネットには、変数選択を行う側面と、相関の高い複数の説明変数に適切なパラメータ推定値を割り振る側面の両方を持ち合わせています。弾性ネットを参照してください。

メモ: ［弾性ネット］を選択し、「弾性ネットのアルファ」を欠測値にした場合は、Lasso、弾性ネット、リッジ回帰がこの順番に計算されます。計算に時間がかかる場合は、進捗を示すバーが表示されます。そのとき［現在の推定値を採用］をクリックすると、計算が停止され、その時点での最良のモデルを使ってパラメータ推定値のレポートが作成されます。処理の実行中は進捗バーに、Lasso、弾性ネット、リッジ回帰のいずれの計算が行われているかが表示されます。この情報に基づいて、［現在の推定値を採用］をクリックするかどうかを判断してください。

リッジ

リッジ回帰の枠組みで、パラメータを推定します。リッジ回帰は、罰則付きの回帰分析の一つで、l2ペナルティを適用します。パラメータ推定値は0になりません。よって、すべての説明変数を常にモデルに含めておきたい場合に役立ちます。リッジ回帰を参照してください。

ダブルLasso

パラメータ推定値を2段階で計算します。第1段階では、Lassoモデルをあてはめ、どの項を第2段階に使うかを決定します。第2段階では、第1段階で選択された項だけを使ってLassoモデルをあてはめ、「パラメータ推定値の経路」とパラメータ推定値のレポートを作成します。第1段階でモデルに追加される変数がない場合、第2段階は実行されず、第1段階の結果がレポートに表示されます。

ダブルLassoは、標本サイズが説明変数の個数よりも少ない場合に特に役立ちます。変数選択と縮小の処理が2つの段階に分かれていることにより、モデルに含まれる項に対して過度の罰則が課される可能性が低くなります。ダブルLassoは緩和型Lasso（relaxed Lasso）に似ています。緩和型Lassoについては、Hastie et al.（2009, p. 91）を参照してください。

適応型ダブルLasso

パラメータ推定値を2段階で計算します。第1段階では、適応型Lassoモデルをあてはめ、どの項を第2段階に使うかを決定します。第2段階では、第1段階で選択された項だけを使って適応型Lassoモデルをあてはめます。この第2段階での適応型Lassoでは、第1段階で選択されたモデルに含まれる項のみを考慮し、かつ、第1段階のパラメータ推定値に基づく重みを使用します。その重みの設定方法は、「詳細設定」の「適応型ペナルティの重み」オプションにおいて選択できます。［詳細設定］オプションを参照してください。表示される結果は、第2段階が終わった後の結果です。第1段階でモデルに追加される変数がない場合、第2段階は実行されず、第1段階の結果がレポートに表示されます。適応型手法を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).