公開日: 11/25/2021

分位点範囲の外れ値

「分位点範囲の外れ値」ユーティリティでは、各列の分位点によって極端な値を識別します。分位点の計算には特定の確率分布を仮定する必要がないので、外れ値を検出するのに分位点を用いるのは便利です。分位点を求めるには、まず、データを小さい値から大きい値へと並べます。そして、たとえば、20%の分位点は、データの20%がそれより小さい値です。「分位点範囲の外れ値」ユーティリティでの外れ値は、分位点の範囲(2つの分位点の差)の定数倍によって定義されます。分位点の計算方法の詳細については、『基本的な統計分析』の分位点の統計的詳細を参照してください。

「分位点範囲の外れ値」ユーティリティは、データにある欠測値コードを識別するのにも便利です。前述したように、一部の業界では、欠測値を「9」として入力しています(「999」や「9999」など)。「分位点範囲の外れ値」ユーティリティでは、上側分位点以上のデータ値のなかで全部の数字が「9」になっている整数をすべて、欠測値コードの候補として取り上げます。このユーティリティを使って、それらの候補をデータテーブルの「欠測値のコード」列プロパティに追加することもできます。

[分位点範囲の外れ値]のオプション

「分位点範囲の外れ値」パネルでは、外れ値の識別方法と処理方法を指定できます。

図21.6 「分位点範囲の外れ値」ウィンドウ 

Quantile Range Outliers Window

上側分位点もしくは下側分位点から、分位点範囲(上側分位点と下側分位点の差)をQ倍したもの以上離れている点がすべて外れ値とみなされます。Qの値と何パーセントの分位点にするかは、変更できます。

裾の分位点

分位点範囲を計算するために使われる下側分位点の累積確率。なお、上側分位点の累積確率は、1から裾の分位点の値を引いたものとみなされます。たとえば、この「裾の分位点」に0.1が指定された場合、分位点範囲は、90%分位点から10%分位点を引いたものです。デフォルトの値は0.1です。

Q

外れ値の閾値を決定する乗数。下側分位点と上側分位点からQ倍の分位点範囲以上、離れている値は、外れ値とみなされます。Qの値を大きくするほど、離れている点も外れ値とみなされなくなります。デフォルトの値は3です。

検索を整数に限定

外れ値の候補として取り上げるデータ値を整数だけに限定します。この機能は、欠測値コードやエラーコードを見つけるのに役立ちます。

外れ値のある列のみ表示

レポートに表示する列を、外れ値のある列だけに限定します。

特定の方法によって外れ値を探し出した後、レポートに表示されているこれらの外れ値に対して、さまざまな処理を行えます。ある列における外れ値に対して処理をしたい場合には、まず、「分位点範囲の外れ値」レポートでその列を選択してください。

ヒント: レポートで列を選択せずに以下のいずれかのボタンをクリックすると、すべての列を選択するか確認するJMP警告が表示されます。

行の選択

レポートで選択されている列で外れ値を含む行を、データテーブルで選択します。

行の除外

レポートで選択されている列で外れ値を含む行に関して、[行の除外]属性をオンにします。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

セルの色

レポートで選択されている列に関して、データテーブルにおいて、外れ値を含むセルに色を塗ります。

行の色分け

レポートで選択されている列に関して、データテーブルにおいて、外れ値を含む行に色を与えます。

「欠測値のコード」に追加

レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。欠測値コードやエラーコードは、整数であることが多く、また、9がいくつか並んで表されることが多いです。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 起動ウィンドウでBy変数を指定した場合は、「分位点範囲の外れ値」で[「欠測値のコード」に追加]を使用することはできません。

欠測値に変更

レポートで選択されている列に関して、データテーブルにおいて、外れ値を欠測値に置換します。データ値を欠測値に置換するには注意が必要です。データが無効か、正確でないとわかっている場合にのみ、データ値を欠測値に置換してください。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 選択した外れ値が「欠測値のコード」列プロパティに追加されている場合、その外れ値は欠測値に変更されません。

計算列の新規作成

起動ウィンドウで指定された各列に対し、それぞれ1つの計算列を作成します。新規に作成された各列に、元の列の値が外れ値の限界値内にある場合は元の列の値、限界値内にない場合は欠測値が設定されます。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。

計算スクリプトの作成

データテーブルに追加されるスクリプトを作成します。このスクリプトを実行すると、起動ウィンドウで指定された各列に対して、それぞれ1つの計算列が作成されます。新規に作成された各列に、元の列の値が外れ値の限界値内にある場合は元の列の値、限界値内にない場合は欠測値が設定されます。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。

再スキャン

何らかの外れ値の処理をした後に、レポートを再計算したい場合には、この[再スキャン]を行ってください。

メモ: Ctrlキーを押しながら[再スキャン]をクリックすると、すべてのByグループに対して再スキャンが行われます。

[閉じる]

「分位点範囲の外れ値」パネルを閉じます。

メモ: Ctrlキーを押しながら[閉じる]をクリックすると、すべてのByグループのコマンドウィンドウが閉じられます。

「分位点範囲の外れ値」レポート

「分位点範囲の外れ値」レポートには、指定されたすべての列が、指定のオプションを使って検出された外れ値とともに表示されます。また、上側分位点と下側分位点、そして上側閾値と下側閾値が表示されます。上側閾値と下側閾値の外側にある値は、外れ値とみなされます。各列の外れ値の個数も表示されます。外れ値となっているデータの値は、レポートの最後の列に表示されます。1つの列でデータ値が重複している外れ値については、その個数が括弧内に示されます。外れ値のない列はレポートに表示しない場合には、[外れ値のある列のみ表示]を選択します。

このレポートを読み取る際には、以下の点に注目してください。

エラーコードや欠測値コード。連続尺度のデータにおいて、絶対値が大きく、かつ、それが整数であると、その値はエラーコードや欠測値コードである可能性があります。たとえば、上側分位点が0.5程度で、下側分位点が-0.5程度である場合、1049や-777といった極端に絶対値が大きな整数値はエラーコードや欠測値コードである可能性が高いでしょう。

ゼロ。欠測値を「0」とコーディングしている場合もあるでしょう。たとえば、データの大半が比較的大きな値で、0が外れ値として存在している場合、その0は欠測値である可能性が高いでしょう。

「9」を含むデータ

「分位点範囲の外れ値」ウィンドウのおける「「9」を含むデータ」レポートには、欠測値コードかもしれないデータ値を含む列が表示されます。欠測値コードの候補として取り上げられるデータ値は、上側分位点よりも大きな値で、かつ、すべての数値が9となっているもの(たとえば9999)のなかで、最大となっているものです。それらが頻出している場合、それらの外れ値は実際には欠測値コードであると考えられます。それらの度数が少ない場合は、単なる外れ値であるのか、それとも、欠測値コードであるのかを、さらに調べる必要があります。「「9」を含むデータ」レポートには、上側分位点も表示されます。

このレポートは、欠測値コードと類推されるデータ値が存在している場合にのみ表示されます。

「欠測値のコード」に最大「9」を追加

外れ値と認識されたデータ値が「欠測値のコード」列プロパティに追加されます。この処理の後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 起動ウィンドウでBy変数を指定した場合は、「分位点範囲の外れ値」で[「欠測値のコード」に最大「9」を追加]を使用することはできません。

最大「9」を欠測値に変更

データテーブルにおいて、外れ値と認識されたデータ値を欠測値に置換します。

メモ: データを変更する処理([欠測値に変更][行の除外]など)を最初に選択した際、元のデータを保持するために[名前を付けて保存]コマンドを使ってデータテーブルを新しいファイルとして保存するよう求める警告ウィンドウが表示されます。このウィンドウが表示されたら、[OK]をクリックしてください。また、新しいデータテーブルを保存すると選択した場合、新しい名前でファイルを保存するダイアログが表示されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).