公開日: 11/25/2021

ロバスト推定による外れ値

パラメータをロバスト(頑健)に推定する方法は、外れ値の影響を受けにくくなっています。[ロバスト推定による外れ値]ユーティリティには、外れ値を識別する閾値を決定するための、中心とちらばりを推定するいくつかの推定法があります。

図21.7 「ロバスト推定による外れ値」ウィンドウ 

Robust Fit Outliers Window

「ロバスト推定による外れ値」のオプション

指定されたロバストな方法によって中心とちらばりが推定され、中心からk倍のちらばりだけ離れた値が外れ値とみなされます。「ロバスト推定による外れ値」ウィンドウには、ロバストな推定法を選択したり、kを指定したりするオプションがあり、また、検出された外れ値を処理するためのツールがあります。

Huber

HuberのM推定を使用して、中心とちらばりを求めます。これがデフォルトのオプションです。Huber and Ronchetti(2009)を参照してください。

Cauchy

Cauchy分布に従うと仮定して、中心とちらばりを推定します。Cauchy分布を仮定した推定は、破綻点(breakpoints)が高く、通常、Huber推定よりもロバストです。ただし、複数のクラスターにデータが分かれている場合、互いに近くなっている半分のデータだけしか考慮せず、残り半分のデータを完全に無視する傾向があります。

四分位点

四分位範囲(IQR; interquartile range)に基づいてちらばりを推定します。中央値が中心の推定値として使われます。また、IQRを1.34898で割った値がちらばりの推定値として使われます。正規分布においては、IQRを1.34898で割った値は、標準偏差です。

K

中心からちらばりのK倍以上離れているデータ値を外れ値とみなします。Kの値を大きくするほど、離れている点が外れ値と見なされなくなります。デフォルトの値は4です。

外れ値のある列のみ表示

レポートに表示する列を、外れ値のある列だけに限定します。

特定の方法によって外れ値を探し出した後、レポートに表示されているこれらの外れ値に対して、さまざまな処理を行えます。ある列における外れ値に対して処理をしたい場合には、まず、「ロバスト推定による外れ値」レポートでその列を選択してください。

ヒント: レポートで列を選択せずに以下のいずれかのボタンをクリックすると、すべての列を選択するか確認するJMP警告が表示されます。

行の選択

レポートで選択されている列で外れ値を含む行を、データテーブルで選択します。

行の除外

レポートで選択されている列で外れ値を含む行に関して、[行の除外]属性をオンにします。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

セルの色

レポートで選択されている列に関して、データテーブルにおいて、外れ値を含むセルに色を塗ります。

行の色分け

レポートで選択されている列に関して、データテーブルにおいて、外れ値を含む行に色を与えます。

「欠測値のコード」に追加

レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 起動ウィンドウでBy変数を指定した場合は、「ロバスト推定による外れ値」で[「欠測値のコード」に追加]を使用することはできません。

欠測値に変更

レポートで選択されている列に関して、データテーブルにおいて、外れ値を欠測値に置換します。この処理が終わった後、「ロバスト推定と外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

計算列の新規作成

起動ウィンドウで指定された各列に対し、それぞれ1つの計算列を作成します。新規に作成された各列に、元の列の値が外れ値の限界値内にある場合は元の列の値、限界値内にない場合は欠測値が設定されます。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。

計算スクリプトの作成

データテーブルに追加されるスクリプトを作成します。このスクリプトを実行すると、起動ウィンドウで指定された各列に対して、それぞれ1つの計算列が作成されます。新規に作成された各列に、元の列の値が外れ値の限界値内にある場合は元の列の値、限界値内にない場合は欠測値が設定されます。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。

再スキャン

何らかの外れ値の処理をした後に、レポートを再計算したい場合には、この[再スキャン]を行ってください。

メモ: Ctrlキーを押しながら[再スキャン]をクリックすると、すべてのByグループに対して再スキャンが行われます。

[閉じる]

「ロバスト推定と外れ値」パネルを閉じます。

メモ: Ctrlキーを押しながら[閉じる]をクリックすると、すべてのByグループのコマンドウィンドウが閉じられます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).