公開日: 11/25/2021

パーティションでの検証

パーティションモデルはオーバーフィット(過学習)しやすいため、モデルで検証を使用することが重要です。オーバーフィットすると、モデルの作成に用いたデータでの予測は精確でも、将来のデータに対する予測精度は悪くなります。検証(validation)とは、データの一部をモデルパラメータの推定に使用し、残りのデータでモデルの予測能力を評価する方法を指します。検証については、JMPのモデル化での検証を参照してください。

「パーティション」で検証セットを指定した場合には、[実行]ボタンが表示されます。この[実行]ボタンは、[分岐]ボタンを手動で繰り返し押すことなしに、分岐処理を一度に実行したいときに使います。[実行]ボタンをクリックすると、現時点より後の10回のどの分岐においても、検証セットのR2乗が改善されない時点まで、一度に処理が実行されます。この方法では、解釈しにくい複雑なツリーになるかもしれませんが、求められたツリーの予測精度は高いでしょう。

[実行]ボタンを使ったときには、[分岐履歴]コマンドがオンになります。なお、[実行]ボタンを使ったときにノードの数が40を超えるツリーができた場合は、[ツリーの表示]コマンドはオフになります。

以下のいずれかの検証法を選択します。

除外された行

行の属性によって、データを分割します。除外されていない行を学習セット、除外されている行を検証セットとして用います。

行の属性と行の除外の詳細については、『JMPの使用法』のデータテーブル内での行の非表示と除外を参照してください。

保留

データを無作為に学習セットと検証セットに分割します。プラットフォームの起動ウィンドウにある「検証セットの割合」で、検証セットとして用いる部分の割合(保留する割合)を指定することができます。検証セットの割合の詳細については、「パーティション」プラットフォームの起動を参照してください。

Image shown here検証列

検証セットを定義する数値列を使用します。この列には最大3つの異なる値が含まれていなければなりません。

検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。

水準が3つの場合は、値が小さいものから順に、学習セット、検証セット、テストセットとして使われます。

検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。

「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。「検証列の作成」ユーティリティの詳細については、検証列の作成を参照してください。

ヒント: パーティションモデルをK分割交差検証法や入れ子式交差検証法で検証したい場合には、「モデルのスクリーニング」プラットフォームを用いてください。詳細については、モデルのスクリーニングを参照してください。

「モデルの評価」レポート

「モデルの評価」レポートには次の情報が表示されます。

K分割

分割数。

(-2)*対数尤度またはSSE

応答変数がカテゴリカルである場合は、(-1)*対数尤度の2倍、つまり(-2)*対数尤度が計算されます。応答変数が連続尺度である場合は、誤差平方和(SSE)が計算されます。最初の行には、各分割にわたって平均化された結果が表示されます。2行目には、データすべてに対する1つのモデルのあてはまりの結果が表示されます。対数尤度の詳細については、『基本的な回帰モデル』の尤度・AICc・BICを参照してください。

R2乗

最初の行には、各分割にわたって平均化されたR2乗値が表示されます。2行目には、データすべてに対する1つのモデルのあてはまりのR2乗値が表示されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).