ツリーマップ

ツリーマップとは?

ツリーマップは、さまざまな色とサイズの四角形を使用してデータの階層構造を示します。

ツリーマップの使用方法

ツリーマップは、データの階層と変数間の関係を確認するのに役立ちます。

階層型のデータを示すツリーマップ

ツリーマップは、データの階層構造を示す四角形の配列です。ツリーマップは元々、コンピューターのハードドライブ上のファイルの構造とサイズを表示する方法として考案されました。現在ではツリーマップは、階層のない状況を含む多くの状況で使用されるようになりました。ツリーマップは、少さいスペースに大量のデータを表示できます。

ツリーマップは、ほとんどの場合、コンピューターで生成されます。ソフトウェアツールは、アルゴリズムを使用して、四角形のサイズを各四角形内にある観測値の数に比例するように調整します。ほとんどのツールには四角形に色を付けるオプションがあり、四角形にラベルを追加することもできます。一部のツールでは、ドリルダウンで詳細を表示できます。この機能は、ツリーマップの四角形が小さすぎて容易にラベルを確かめられない場合に便利です。

図1の非常に単純なツリーマップは、大、中、小規模の企業の売上の構造を示しています。各四角形は、企業のカテゴリごとの平均売上高(米ドル)によってサイズが決まり、従業員1人あたりの利益によって色分けされています。

図1:会社の規模と従業員1人当たりの利益のツリーマップ

図1のグラフは、ツリーマップの基本的な考え方を示しています。この例から、四角形の色に基づいて、従業員1人当たりの利益は、中規模の企業が最も高いと結論付けます。四角形のサイズから、大企業は平均売上高が最も高いと結論付けます。一方で、ツリーマップを使用すると、より複雑なデータを視覚化することができます。ツリーマップを使用した視覚化は、複雑な階層を持つ変数に適しています。

ツリーマップの例

例1:カテゴリと階層のツリーマップ

基本的な例を拡張した図2のツリーマップは、2つの業種のカテゴリと、各カテゴリ内の大、中、小企業の売上の構造を示しています。ツリーマップでは、カテゴリと規模の各組み合わせの平均売上高(米ドル)によって、四角形の大きさが決まります。ツリーマップでは、従業員1人当たりの利益によって四角形を色分けします。

図2:2つの業種のカテゴリを持つツリーマップ

図2のツリーマップから、小規模な製薬会社の場合に、従業員1人当たりの利益が最も高いことがわかります。四角形の大きさから、両方のカテゴリで大企業の売上が最も高いことがわかります。また、中規模のコンピューター会社の、従業員1人当たりの利益はマイナスであることがわかります。このツリーマップでは、小規模な製薬会社の最小の四角形にラベルを付けることはできません。多くの小さな四角形が帰着される、より大きなデータセットでは、このような状況は一般的です。ここでは、「ホバーヘルプ」を提示したり、対話的なドリルダウンが利用可能なツールが役立ちます。

大企業の平均売上高が最も高いという当初の結論は依然として真実です。ただし、カテゴリ変数を使用すると、中規模の企業の従業員1人当たりの利益が最も高いという当初の結論は正しくないことがわかります。

例2:多数の水準を持つ、より多くの変数のカテゴリと階層

ツリーマップは、多数の水準を持つ、より多くの変数に対して有用です。図3は、図2と同様の財務データを示しています。ここには、6つの水準を持つ、さまざまな業種を表す変数があります。また、会社の規模という変数もあります。この例は、前の例よりも多くの業種を示しています。四角形の大きさは、平均売上高(米ドル)です。四角形は、業種によって色分けされ、会社の規模によってグループに分けられます。

図3:多くの変数とカテゴリを持つツリーマップ

このツリーマップは、会社の規模の階層のすべての水準で、石油会社の平均売上高が最も高いことを示しています。飲料会社の平均売上高は大企業で最も低くなっていますが、中小企業ではそうではありません。小規模の企業の場合、石鹸会社の平均売上高が最も低くなります。中規模の企業の場合、航空宇宙企業の平均売上高が最も低くなります。

例3:階層のないツリーマップ

ツリーマップは、階層のないデータにも役立ちます。図4のツリーマップは、多くの動物種の合計睡眠時間を時間単位で示しています。四角形の大きさは動物種の寿命によって決まり、四角形の色は睡眠時間によって決まります。

図4:階層のないデータのツリーマップ

図4のツリーマップの色によると、コウモリの総睡眠時間が最長です。四角形の大きさによると、小型のコウモリ(little brown bat)は大型のコウモリ(big brown bat)よりも寿命が長くなります。四角形の大きさは、このツリーマップで人間(man)が最も長生きすることを示しています。

例4:y軸にカテゴリを指定する場合

上の例では、x軸にカテゴリや階層を示しました。図5の例は、y軸にカテゴリや階層を示しています。これは1990年代半ばの車のデータで、ツリーマップの四角形の大きさは、各モデルの高速道路走行時のマイル毎ガロン(MPG)によって決まります。y軸のカテゴリ変数は、車が米国製かどうかを示します。

図5:y軸にカテゴリがあるツリーマップ

ツリーマップは、一般的なパターンを確認するのに役立ちます。例えば、オレンジ色の四角形は青色の四角形よりも概して大きいでしょうか?ジオ・メトロ(Metro)は、すべての車の中でMPGが最高です。ホバーヘルプを使用すると、各四角形のMPGが表示されるため、これを確認しやすくなります。JMPソフトウェアは自動的に車をアルファベット順に並べました。

例5:2つのカテゴリ

ツリーマップは、複数のカテゴリが構造を定義する場合に役立ちます。図6のツリーマップは、6つの航空会社の遅延時間と曜日をカテゴリ変数として示しています。四角形の大きさと色は平均到着遅延時間によって決まります。

図6:複数のカテゴリを持つツリーマップ

平均到着遅延時間は、すべての航空会社で曜日によって異なります。全体的に遅延時間が最も短い航空会社を選択したい場合は、サウスウエスト航空またはデルタ航空のいずれかにする必要があることを、ツリーマップは示しています。サウスウエスト航空とデルタ航空の場合、週の初めの平均遅延時間は8分未満であり、木曜日と金曜日はそれよりも長くなります。これら2つの航空会社の場合、最長の平均遅延時間は11分未満です。対照的に、アメリカン航空の場合、最短の平均遅延時間は11分です。ツリーマップ全体での最短の平均遅延時間は、火曜日のサウスウエスト航空です。最長の平均遅延時間は、金曜日のアメリカン航空です。