公開日: 04/01/2021

「K近傍法」レポート

「K近傍法」レポートには、各応答変数に対して個別のレポートが含まれています。それぞれの応答変数のレポートには、その応答変数に対してあてはめられたモデルについての情報が含まれています。この情報には、「モデル選択」レポートと、あてはめられたK近傍モデルそれぞれの要約情報が含まれています。結果は、学習セットと検証セットに分かれています(検証セットの表が表示されるのは、検証セットを使用している場合のみです)。

「モデル選択」レポートは、応答変数がカテゴリカルな場合には誤分類率が、応答変数が連続尺度の場合にはRMSE(誤差の標準偏差)が、K個までのモデルに対してプロットされます。デフォルトで、スライダが予測精度が最も良いモデルのKの位置に置かれます。スライダをドラッグして、レポートのK値を変更できます。

算出される統計量は、応答変数の尺度によって異なります。要約表の各行は、K近傍モデルに対する結果になっています。モデルは、1個から起動ウィンドウの[近傍点の個数, K]として指定した個数までの、K近傍モデルがあてはめられます。

連続尺度の応答変数

連続尺度の応答変数に関するレポートには、デフォルトでは、「モデル選択」グラフに加え、要約表が含まれています。

要約表

アスタリスクがついているのは、RMSE(誤差の標準偏差)が最小となっているK近傍モデルです。応答変数が連続尺度の場合には、以下の統計量が算出されます。

K

モデルに使用された近傍点の個数。Kの値として、1個から[近傍点の個数, K]で指定した個数までのモデルがあてはめられます。

度数

標本サイズ(オブザベーション数)。

R2乗

モデルのR2乗値。

RMSE

誤差の標準偏差(Root Mean Square Error; 平均誤差平方の平方根)。RMSEが最小となっているモデルにはアスタリスクがつきます。なお、RMSEが同じで最小となっているモデルが複数ある場合は、Kが最小であるモデルにアスタリスクがつきます。

SSE

誤差平方和(Sum of Squared Errors)。

カテゴリカルな応答変数に対するオプション

カテゴリカルな応答変数に関するレポートには、デフォルトでは、「モデル選択」グラフに加え、要約表、「混同行列」、「モザイク図」が含まれています。

要約表

アスタリスクがついているのは、誤分類率が最小となっているK近傍モデルです。カテゴリカルな応答の要約表には、以下の統計量が算出されています。

K

モデルに使用された近傍点の個数。Kの値として、1個から[近傍点の個数, K]で指定した個数までのモデルがあてはめられます。

度数

標本サイズ(オブザベーション数)。

誤分類率

モデルによって誤分類されたオブザベーションの割合。誤分類されている度数を、全度数で割ったものです。誤分類率の最小となっているモデルにはアスタリスクがつきます。誤分類率が同じで最小となっているモデルが複数ある場合は、Kが最小であるモデルにアスタリスクがつきます。

誤分類

モデルによって正しく予測されなかったオブザベーション数。

混同行列

デフォルトでは、混同行列は誤分類率が最小になっているモデルについて表示されます。誤分類率が同じで最小となっているモデルが複数ある場合は、Kの値が最小であるモデルの混同行列が表示されます。検証セットやテストセットを使用した場合、それらの混同行列も表示されます。混同行列は、応答変数の実測値と予測値を2元度数表にまとめたものです。モデルを評価するときは、混同行列や誤分類率を参考にしてください。

ヒント: 「モデル選択」グラフにおいてスライダの位置を変更すると、選択したKの値に応じた混同行列が追加で表示されます。デフォルトの最良モデルの混合行列の下に、その追加の混同行列は表示されるので、それらを比較できます。

モザイク図

デフォルトでは、混同行列は誤分類率が最小になっているモデルのモザイク図が表示されます。誤分類率が同じで最小となっているモデルが複数ある場合は、Kの値が最小であるモデルのモザイク図が表示されます。モザイク図は、棒グラフを積み重ねたもので、それぞれの矩形はそのグループの度数に比例します。モザイク図の詳細については、『基本的な統計分析』のモザイク図を参照してください。検証セットやテストセットを使用した場合、その検証セットと検定セットのモザイク図も表示されます。

ヒント: 「モデル選択」グラフでスライダの位置を変更すると、選択したKの値に対するモザイク図に更新されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).