予測モデルおよび発展的なモデル > パーティション > 「パーティション」プラットフォームの概要
公開日: 04/01/2021

「パーティション」プラットフォームの概要

「パーティション」プラットフォームは、説明変数と目的変数の関係に従ってデータを再帰的に分割し、ディシジョンツリーを作成します。パーティションにはいろいろなバリエーションがあり、ディシジョンツリー(決定木)、CARTTM、CHAIDTM、C4.5、C5などの名前で呼ばれています。パーティションはよく、以下のような理由からデータマイニング手法とみなされています。

事前にモデルを用意しなくても変数の関係が検討できる

膨大なデータを容易に処理することができる

結果が解釈しやすい

パーティションのよく知られた利用としては、病気を診断するルールをデータから作成することです。多数の患者に対する症状と診断結果をデータとして与えられれば、パーティションを使って新しい患者の診断に役立つ階層的な質問を生成できます。

説明変数にも、連続尺度とカテゴリカルの両方を使用できます。説明変数が連続尺度の場合は、分岐値に基づいて分岐が行われ、分岐値を境として上と下に標本が分かれます。説明変数がカテゴリカルの場合は、標本が2つのグループに分けられます。

また、応答変数は、連続尺度とカテゴリカル(名義/順序尺度)のどちらでもかまいません。応答変数が連続尺度の場合は、応答値の平均があてはめられます。応答変数がカテゴリカルな場合は、あてはめた値が応答変数の水準の確率になります。どちらの場合も、分岐された2つのグループでの応答の差が最大になるようにデータを分岐します。

分岐基準の詳細は、「パーティション」プラットフォームの統計的詳細を参照してください。

対話的パーティショニングの詳細については、Hawkins and Kass(1982)およびKass(1980)を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).