分布
「手法」のメニューから[一般化回帰]を選択すると、「分布」オプションが表示されます。ここで、Yの分布を指定できます。なお、「ゼロ強調」ZI; Zero Inflated、ゼロ膨張)とは、Poisson分布や負の二項分布において、度数がゼロとなる確率を増やした分布のことを指します。用意されている応答の分布は、大まかに3つの分類(連続分布、離散分布、ゼロ強調分布)に分けられます。以下で、各オプションについて説明します。
連続尺度
応答Yが、平均m、標準偏差sの正規分布に従っていると仮定されます。正規分布は対称な分布です。さまざまな分布において、標本サイズが大きい場合、その標本平均は正規分布に従います(中心極限定理)。mに対するリンク関数は、恒等関数です。つまり、Yの平均が、線形関数に等しいと仮定されます。
正規分布の尺度パラメータはsです。罰則を課さない推定方法の場合、尺度パラメータsの推定値は、RMSE(Root Mean Squared Error; 平均2乗誤差の平方根)です。このRMSEは、s2に対する通常の不偏推定値の平方根です。打ち切りのあるデータを使わない限り、結果は標準最小2乗の場合と等しくなります。
分布の統計的詳細を参照してください。
応答Yが、位置パラメータmと尺度パラメータsのCauchy分布に従っていると仮定されます。Cauchy分布には、平均と標準偏差がありません。中央値とモードは共にmです。ほとんどのデータは本質的にCauchy分布に従いませんが、外れ値の割合が大きい(最大50%)データのロバストな回帰を実行するには便利です。mに対するリンク関数は、恒等関数です。分布の統計的詳細を参照してください。
応答Yが、平均パラメータmの指数分布に従っていると仮定されます。指数分布は右に裾をひいた形状です。生存時間や連続するイベント間の時間をモデル化するのによく使用されます。mのリンク関数は、対数です。分布の統計的詳細を参照してください。
応答Yが、平均パラメータmと過分散パラメータsのガンマ分布に従っていると仮定されます。ガンマ分布には柔軟性があり、他のいくつかの分布と関係しています。たとえば、指数分布は、s = mの場合のガンマ分布です。また、Weibull分布やカイ2乗分布は、ガンマ分布から導出することもできます。
mに対するリンク関数は、対数です。分布の統計的詳細を参照してください。
応答Yが、平均パラメータm、尺度パラメータsのWeibull分布に従っていると仮定されます。Weibull分布は柔軟で、生存時間やイベントが発生するまでの時間をモデル化するのによく使用されます。mに対するリンク関数は、恒等関数です。分布の統計的詳細を参照してください。
応答Yが、平均パラメータm、尺度パラメータsの対数正規分布に従っていると仮定されます。対数正規分布は右に裾をひいた形状です。生存時間や連続するイベントが発生するまでの時間をモデル化するのによく使用されます。mに対するリンク関数は、恒等関数です。分布の統計的詳細を参照してください。
応答Yが、平均パラメータm、過分散パラメータsのベータ分布に従っていると仮定されます。ベータ分布の応答は、0より大きく1より小さい値で、割合や比率を表すのによく使用されます。mに対するリンク関数は、ロジット関数です。分布の統計的詳細を参照してください。
離散分布
応答Yが、パラメータがnpの二項分布に従っていると仮定します。応答Yは、n回の独立した試行を行ったときの成功数です。各試行内においては、成功確率pは一定です。この分布では、標本サイズを含む列も指定してください。標本サイズを含む列を指定しなかった場合には、標本サイズは1とみなされます。pに対するリンク関数は、ロジット関数です。2値の名義尺度の応答変数を選択した場合、使用できる分布は[二項]に限られます。分布の統計的詳細を参照してください。
応答Yが、成功の確率p、試行回数n、過分散パラメータdのベータ二項分布に従っていると仮定します。ベータ二項分布は、二項分布で過分散が生じたときの分布です。
JMPの「Samples/Scripts」フォルダにある「demoBetaBinomial.jsl」を実行すると、標本サイズnが20で成功確率がpである二項分布と、過分散パラメータがdであるベータ二項分布とを比較できます。
応答Yが、平均lのPoisson分布に従っていると仮定します。Poisson分布は、一定期間内に生じているイベントの回数などの度数データに対して、よく使われます。パラメータlに対するリンク関数は対数です。なお、応答Yに整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
応答Yが、平均m、過分散パラメータsの負の二項分布に従っていると仮定されます。負の二項分布は通常、特定の失敗数に達するまでの成功数をモデル化するのに使われています。また、負の二項分布はガンマPoisson分布を別のパラメータ表現したものです。負の二項分布とガンマPoisson分布との関係の詳細については、『基本的な統計分析』の二変量分析を参照してください。
JMPの「Samples」フォルダ内の「Scripts」フォルダにある「demoGammaPoisson.jsl」を実行すると、平均lのPoisson分布と、平均lおよび過分散パラメータsのガンマPoisson分布とを比較できます。
mに対するリンク関数は、対数です。なお、応答Yに整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
ゼロ強調
応答Yは、パラメータpn、およびゼロ強調パラメータpのゼロ強調二項分布に従っていると仮定されます。応答Yは、n回の独立した試行を行ったときの成功数です。各試行内においては、成功確率pは一定です。この分布では、標本サイズを含む列も指定してください。標本サイズを含む列を指定しなかった場合には、標本サイズは1とみなされます。pに対するリンク関数はロジット関数です。分布の統計的詳細を参照してください。
応答Yが、成功の確率p、試行回数n、過分散パラメータd、ゼロ強調パラメータpの二項分布に従っていると仮定します。この分布は、二項分布が過分散したものです。ゼロ強調ベータ二項分布では、各オブザベーションにおいて、標本サイズが2以上でなければいけません。そのため、標本サイズを含む列を必ず指定しなければなりません。標本サイズを含む列を指定するには、成功回数と試行回数が含まれた2つの連続尺度の列を、この順番でYに指定します。pに対するリンク関数はロジット関数です。分布の統計的詳細を参照してください。
応答Yが、平均パラメータl、ゼロ強調パラメータpのゼロ強調Poisson分布に従っていると仮定されます。ゼロ強調Poisson分布には、lとπという2つのパラメータがあります。パラメータlは、Poisson分布の部分における条件付き平均を表しています。πは、度数がゼロである割合を左右するパラメータです。λに対するリンク関数は、対数です。なお、応答Yにゼロが1つもない場合や、整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
応答Yが、位置パラメータm、過分散パラメータs、ゼロ強調パラメータpの、ゼロ強調の負の二項分布に従っていると仮定されます。パラメータmは、負の二項分布の部分に関するパラメータです。mに対するリンク関数は対数です。なお、応答Yにゼロが1つもない場合や、整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
応答Yが、平均パラメータm、ゼロ強調パラメータpのゼロ強調ガンマ分布に従っていると仮定されます。ある場合においては、データにおける非ゼロの部分がガンマ分布に従っていると仮定できることもあるでしょう。たとえば、保険の請求における請求額は近似的にガンマ分布に従っていることがあります。ただし、請求がまったくない契約もあるので、データには多くのゼロが存在します。ゼロ強調ガンマ分布では、そのようなデータをゼロと非ゼロの応答に分けて分析する必要がなく、一度にモデル化します。パラメータmは、ガンマ分布の部分に関するパラメータです。mに対するリンク関数は対数です。分布の統計的詳細を参照してください。
表5.1 に、それぞれの分布について、Yに指定できる列のデータタイプと尺度を示します。
分布の密度関数は、分布の統計的詳細に記載しています。表5.2 には、各分布の概要を示します。
ms
ms
ms
ms
ms
np
npd
ms
npp(ゼロ強調)
npdp(ゼロ強調)
lp(ゼロ強調)
msp(ゼロ強調)
msp(ゼロ強調)
起動ウィンドウにおいて適切な分布を選択した後、[実行]ボタンをクリックすると、「一般化回帰」レポートウィンドウが開きます。