はじめてのJMP > 全体像 > 複数プラットフォームでのデータの探索 > 似たようなデータをグループにまとめる分析
公開日: 04/01/2021

似たようなデータをグループにまとめる分析

クラスター分析は、多変量データにおいて近い値となっている行をグループにまとめる手法です。階層型クラスター分析を実行すると、データ行を結合していった結果が樹形図で示されます。クラスター分析を行うと、「食物繊維が多い」などの似た特徴をもつシリアルが、同じクラスターに分類されます。

注: 階層型クラスター分析の詳細については、『『多変量分析』』の階層型クラスター分析を参照してください。

シナリオ

お互いに似通っている、または似通っていないシリアルを調べてみることにしましょう。シリアルのデータに対してクラスター分析を実行すると、次の疑問に対する回答が得られます。

栄養価が少ないシリアルのクラスターはどれか

ビタミンとミネラルが多く、砂糖と脂肪が少ないシリアルのクラスターはどれか

食物繊維が多く、カロリーが少ないシリアルのクラスターはどれか

階層型クラスターグラフの作成

1. 「Cereal.jmp」が表示された状態で、[分析]>[クラスター分析]>[階層型クラスター分析]を選択します。

2. 「カロリー」から「ビタミン強化」までを選択し、[Y, 列]をクリックしてから[OK]をクリックします。

「階層型クラスター分析」レポートが表示されます。クラスターは、データテーブルの行の状態に合わせて色分けされています。

図6.11 「階層型クラスター分析」レポート(一部) 

Image shown here

3. 「階層型クラスター分析」の赤い三角ボタンをクリックし、[クラスターの色分け]を選択します。

クラスターは、樹形図内の関係に従って色分けされています。

図6.12 色分けされたクラスター 

Image shown here

各クラスター内のシリアルには似通った特徴があります。たとえば、クラスター1のシリアルの名前を見ると、これらのシリアルには多くの食物繊維が含まれていると察せられます。

All-Bran with Extra FiberとFiber Oneがどのようにグループ化されているかを確認してください。これらのシリアルは、クラスター内の他の2つのシリアルよりもより類似性が高いことがわかります。

図6.13 クラスター1内の似通ったシリアル 

Image shown here

4. クラスター1を選択するために、右側の赤い横線をクリックします。

4つのシリアルが赤く強調表示されます。

図6.14 クラスターの選択 

Image shown here

5. クラスター内の似通った特徴を確認するために、赤い三角ボタンのメニューから[クラスターの要約]を選択します。

レポートの下部に、各クラスターの平均値を示した「クラスター要約」グラフが表示されます。たとえば、このクラスターのシリアルには、他のクラスターのシリアルよりも多くの食物繊維とカリウムが含まれています。

図6.15 クラスターの要約 

Image shown here

6. 「階層型クラスター分析」の赤い三角ボタンをクリックし、メニューから[散布図行列]を選択します。

このオプションは、「多変量の相関」プラットフォームで散布図行列を作成するのと同じです。

「カリウム」と「食物繊維」の散布図を見てください。選択されたシリアルは、プロットの右手、8~13グラムの間に位置しています。クラスター1のシリアルは、食物繊維とカリウムが豊富に含まれています。

図6.16 クラスター1の特徴 

Image shown here

注: 前回作成した散布図行列がまだ開いたままの場合は、その図でも対応する点が選択されます。

結果の解釈

クラスターをクリックしたり「クラスター要約」レポートを見たりして、次のような特徴が把握できました。

クラスター1のシリアル(Fiber OneやAll-Branなど)には食物繊維とカリウムが多く含まれており、カロリーは少なめである。

クラスター2のシリアル(子供に人気のシリアルが多い)には砂糖が多く含まれており、食物繊維、複合炭水化物、たんぱく質の含有量は少ない。

クラスター3のシリアル(Puffed RiceとPuffed Wheat)はカロリーは少ないが、栄養価も低い。

クラスター4のシリアル(Total Corn FlakestやMulti-Grain Cheeriosなど)には一日に必要なビタミンとミネラルの100%が含まれている。これらのシリアルの脂肪、食物繊維、砂糖の含有量は少ない。

クラスター5のシリアルにはたんぱく質と脂肪が多く含まれており、ナトリウムの含有量は少ない。このクラスターにはBanana Nut CrunchやQuaker Oatmealが含まれる。

クラスター6のシリアルは脂肪が少なく、炭水化物が多い。このクラスターにはWheatiesやGrape-Nutsといった昔ながらのシリアルが含まれている。

クラスター7のシリアルはカロリーが高く、食物繊維が少ない。ドライフルーツが混ざっているシリアルの多くがこのクラスターに含まれる(Mueslix Healthy Choice、Low Fat Granola w Raisins、Oatmeal Raisin Crisp、Raisin Nut Bran、Just Right Fruit & Nut)。

クラスター8のシリアルはナトリウムと砂糖が少なく、複合炭水化物、たんぱく質、カリウムが多い。Shredded WheatとMini-Wheatはこのクラスターに含まれる。

樹形図の結合を見ることで、各クラスター内でどのシリアルが似通った特徴を持っているかを調べることができます。

クラスター1では、Fiber OneとAll-Bran with Extra Fiberの栄養価が似通っています。また、100% BranとAll-Branも似通っています。これらの似通ったペアの各シリアルは、異なるメーカーによって製造されており、お互いに競合しています。

クラスター2では、Frosted FlakesとHoney Frosted Wheatiesが、一方はコーンフレークでもう一方は小麦フレークですが似通った特徴を持っています。Lucky CharmsとFrosted Cheeriosは似通っています。また、Cap’n’CrunchとTrixも似通っています。

結論

食物繊維が多く、カロリーの低いものを食べたいのなら、クラスター1のシリアルを試すのが妥当でしょう。クラスター3のシリアルは、ポップさせた小麦や米ですが、栄養価がよくありません。クラスター4のシリアルは栄養価が高いです。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).