公開日: 11/25/2021

混合分布のあてはめ

[混合分布のあてはめ]オプションを選択すると、混合分布をあてはめるための「混合」アウトラインが表示されます。例については、混合分布のあてはめの例を参照してください。

混合分布の累積分布関数F(x)は、次のように定義されます。

Equation shown here

ここで、Fi(x)は混合する確率分布の累積分布関数、kは混合する確率分布の個数、wiは合計が1になる正の重みです。[混合分布のあてはめ]オプションで実行される推定では、各クラスター(かたまり)における分布がそれぞれ累積分布関数Fi(x)で表され、それらのクラスターを混合したものからデータが生成された、と仮定しています。つまり、混合されている確率分布の分布パラメータを推定するだけではなく、ある観測値が特定のクラスターから生成された確率も推定します。

混合分布の推定における開始値

混合分布を推定するためには反復計算が使われていますが、その反復計算の開始値の求め方は、「開始値の手法」のオプションで変更できます。ここではk個で構成された混合分布を推定するとします。次の3つの手法があります。

[単一のクラスター]は、すべての分布がすべての観測値にある程度の影響を与えていると仮定します。一部の観測値だけに影響している分布はないと仮定されます。

[分離できるクラスター]は、各分布は一部の観測値に対して他の観測値よりもより強く影響していると仮定します。[分離できるクラスター]の場合、k個の分布における密度関数がそれぞれ識別可能な最頻値を持ち、クラスターを形成していると仮定されます。

[重なったクラスター]は、[単一のクラスター]と[分離できるクラスター]の中間的な状況を仮定します。つまり、あるクラスターに対して、密度関数が大きくなっている分布もありますが、その他の分布も一緒に影響していると仮定します。このオプションでは、データにm個のクラスターがあると仮定されます。ここでmは、分布の個数kより少ない数です。

次のようなアルゴリズムで開始値は求められ、混合分布が推定されます。

1. 観測値のクラスターが定義されます。

2. 指定された「開始値の手法」によって、クラスターの密度への割り当てが行われます。

[分離できるクラスター]の場合、分離されている各クラスターと、異なる各確率分布との組み合わせがすべて考慮され、そのなかで最も尤度が大きいものがパラメータの開始値とされます。

[重なったクラスター]の場合、クラスターを併合することで構成されるデータと、異なる確率分布との組み合わせがすべて考慮され、そのなかで最も尤度が大きいものがパラメータの開始値とされます。

メモ: ある「開始値の手法」を使用し、続いて別の「開始値の手法」を選択したとします。その場合、以前の尤度よりも、現在の尤度がより大きくならなかった場合は、新しい推定結果は追加されません。

「混合」コントロールパネル

「混合」コントロールパネルには、次の3つの要素があります。

成分

混合分布の成分として使用できる分布(混合する分布)が一覧表示されています。

個数

混合分布において、該当の分布をいくつ混合するかを指定します。この「個数」を合計すると、混合分布で使われる分布の総数(k個)になります。

開始値の手法

反復計算の開始値を求める手法を選択します。混合分布の推定における開始値を参照してください。

重ね合わせ

このグラフには、故障が観測された時間に対して、ノンパラメトリックな推定値(Kaplan-Meier推定値もしくはTurnbull推定値)がプロットされています。混合分布をあてはめると、グラフには、その累積分布関数と95%信頼区間も描かれます。これらの領域の信頼水準は、「寿命の一変量」の赤い三角ボタンメニューの[信頼水準の変更]オプションを使って変更できます。グラフの右側には凡例が表示されます。

実行

[実行]をクリックすると、指定されている混合分布があてはめられます。「モデルリスト」にはあてはめた混合分布が追加され、また、混合分布の名前をもつレポートが追加されます。

[混合分布のあてはめ]のレポート

モデルリスト

「モデルリスト」レポートには、あてはめた混合分布が一覧表示されます。また、パラメータの個数、観測値の個数、AICc、対数尤度の-2倍、BICといった統計量が混合分布ごとに表示されます。これらの統計量の詳細については、『基本的な回帰モデル』の尤度・AICc・BICを参照してください。

次の点に注意してください。

これらの統計量は、値が小さいほど適合度が良いことを示します。

行は「AICc」によって並べ替られています。

「比較の規準」オプションは、「モデルリスト」のモデルの順序には影響しません。

「モデルの比較」表には、AICc、対数尤度をマイナス2倍したもの、BICの各統計量も表示されます。これにより、複数の混合分布を比較できます。モデルの比較を参照してください。

「混合」レポート

「モデルリスト」レポートの下には、あてはめた各混合分布に関するレポートが表示されます。各レポートのタイトルには、混合されている分布名とその個数が示されます。このレポートには、各パラメータに対して、推定値、標準偏差、Wald法による95%信頼区間が表示されます。ここでの信頼区間は、起動ウィンドウの「信頼区間の方法」で[尤度]を選択しても影響を受けず、Wald法の信頼区間のままです。

パラメータ推定値は、混合されている各分布に対して求められます。「パラメータ」列には、「割合 <i>」というパラメータも含まれます。ここで、i = 1, 2, ..., k-1です。これらは、混合分布における重みwiの推定値です。重みの合計は1なので、k番目の重みはk - 1個の重みから計算できます。

密度の重ね合わせプロット

「密度の重ね合わせ」プロットには、混合されている各分布の密度関数が描かれます。プロットの右側の凡例で、表示させる密度関数を選択できます。

「混合」レポートのオプション

赤い三角ボタンのメニューには、次のようなオプションがあります。

削除

モデルレポートや「モデルリスト」から、現モデルの結果を削除します。

プロファイルの表示

推定された混合分布Fに関して、4種類のプロファイルを表示します。赤い三角ボタンのオプションについては、混合プロファイルのオプションに説明があります。

「分布プロファイル」は、X軸が時間、Y軸が累積故障確率を表しています。

「分位点プロファイル」は、X軸が累積故障確率、Y軸が時間を表しています。

「ハザードプロファイル」は、X軸が時間、Y軸がハザード(瞬間故障率)を表しています。

「密度プロファイル」は、X軸が時間、Y軸が密度を表しています。

予測の保存

混合されている各分布に対して、観測値がその分布に属する事後確率を含む列をデータテーブルに保存します。使用される計算式については、[混合分布のあてはめ]での予測式の保存を参照してください。

混合プロファイルのオプション

各混合レポートのプロファイルには、次のような赤い三角ボタンのオプションがあります。

信頼区間

分布・分位点・ハザードの各プロファイルには、プロットされた関数に対して、Wald法による95%信頼区間が描かれます。このオプションは、信頼区間を示す曲線の表示/非表示を切り替えます。これらの曲線の信頼水準は、「寿命の一変量」の赤い三角ボタンメニューの[信頼水準の変更]オプションを使って変更できます。

メモ: 計算時間を短くするために、プロファイルに表示される信頼区間は、起動ウィンドウの「信頼区間の方法」で[尤度]を選んだ場合でも、常にWald法によって計算されます。

因子グリッドのリセット

因子別のウィンドウで、因子の設定値を入力したり、設定をロックしたり、グリッドを調整したりできます。『プロファイル機能』の因子グリッドのリセットを参照してください。

因子設定

プロファイル設定、スクリプト、プロファイルの連動に関連するオプションが用意されています。『プロファイル機能』の因子設定を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).