公開日: 04/01/2021

カテゴリカルな応答変数に対するレポート

次図は、「Diabetes.jmp」サンプルデータテーブルのカテゴリカルな応答[Y 2値]に対するプロットです。

図4.6 カテゴリカルな応答の「パーティション」レポート 

パーティションのグラフ

「パーティション」のプロットにおいて、各点はそれぞれデータの各行を表しています。なお、検証セットを用いた場合、学習セットだけがプロットされます。初期状態のプロットでは、分岐は行われていません。

次の点に注意してください。

左側の縦軸は、各応答の割合を示しています。

右側の縦軸は、応答値を示しています。

プロット中の横線は、分割ごとの応答水準の割合を示しています。初期状態での横線は、分岐が1回も行われていないので、データ全体における応答水準の割合を示しています。

どのような分岐が行われたかは、X軸の下に、テキストによる説明によって示されます。また、プロット内においては、各データ点が縦線により分けられます。これらの縦線によって分けられた領域は、ツリーの各ノードに対応しています。X軸のテキストにおいて、最も新しい分岐は最上に(つまり、X軸のすぐ下に)表示されます。プロットは、分岐や剪定のたびに更新されます。

要約レポート

図4.7 カテゴリカルな応答変数に対する要約レポート 

要約レポートには、学習セットの適合度統計量が表示されます(検証セットやテストセットを使用した場合には、それらから計算された適合度統計量も表示されます)。要約レポートの適合度統計量は、分岐や剪定のたびに更新されます。

R2乗

現在のR2の値。

N

オブザベーション数(標本サイズ)。

分岐数

ディシジョンツリーにおける現在の分岐数。

各ノードに関するレポート

ツリー内の各ノードには、それらのノードに関する情報と、赤い三角ボタン(これをクリックすると、追加のオプションを選べます)があります。また、終端ノードには、「候補」レポートも表示されます。

図4.8 カテゴリカルな応答変数に対する終端ノードレポート 

度数

そのノードに属する学習セットのオブザベーション数。

G2

カテゴリカルな応答に使用される適合度統計量(連続尺度の応答に対する誤差平方和に相当する統計量)。値が小さくなるほど、適合度が良いことを示します。「パーティション」プラットフォームの統計的詳細を参照してください。

候補

各列の「候補」レポートに、その列の最適な分岐に関する詳細が示されます。すべての列の分岐のなかで最適なものにアスタリスク(*)が付いています。

候補列を表示します。

候補G^2

最適な分岐点の尤度比カイ2乗。この尤度比カイ2乗値が最大である説明変数で分岐すると、モデルの対数尤度が、その分岐によって最も大きく増加します。

対数価値

-log10(p値)で定義される、対数価値(LogWorth)。対数価値が最大になっている分岐点が、最適な分岐点とみなされます。「パーティション」プラットフォームの統計的詳細を参照してください。

分岐点

分岐に使われた説明変数の閾値。カテゴリカルな説明変数については、左側に分岐されるカテゴリが表示されます。

最適な分岐点にはアスタリスク(*)がついています。しかし、「候補G2」が大きい変数と「対数価値」が大きい変数が同じでない場合もあります。検定統計量が最大になっている分岐には「<」、対数価値が最大になっている分岐には「>」を表示することによって、最大値を持つ変数を別々に示しています。アスタリスクがついている場合は、検定統計量が最大になっている変数と、対数価値が最大になっている変数が一致しているケースです。「パーティション」プラットフォームの統計的詳細を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).