• ニュース・更新情報
  • イベント・セミナー
  • メールマガジン
  • お問い合わせ
  • アクセス
  • 会社概要

JMPテクニカルニュース:2012年1月31日号

インデックス
  • ≪JMP Tips≫ 文字を散布図のマーカーに用いてみましょう
  • ≪JMPグラフ≫ 都道府県別データの可視化

≪JMP Tips≫ 文字を散布図のマーカーに用いてみましょう

散布図では、プロット点を丸型(○)のマーカーで表すことが多く、JMPのデフォルト設定でも丸型のマーカーでプロットされます。
JMPでは、マーカーの種類もさまざまあり、丸型のマーカーを「+」、「×」、「*」などのマーカーに変更することが可能です。

外れ値の点についてはマーカーの種類を変更して区別する、またはグループ変数があるときには変数の値ごとにマーカーの種類を変えて表示すると、 データの状況が分かりやすくなります。

JMPでは、マーカーの種類として、文字や記号(1文字のみ)を指定することが可能です。
たとえば、A、B、C、D、Eという5つのグループがあったとき、マーカーをそれぞれ「A」「B」「C」「D」「E」という文字にすることにより、 次のような散布図を描くことができます。

文字をマーカーとした散布図

これなら、凡例がなくても、どのデータがどのグループに属するのかが一目瞭然です。
今月号のTipsでは、任意の文字をマーカーとして指定する方法をご紹介します。

注意:この機能は、JMP 8以上のバージョンで実行することができます。

今回は例としてJMPのサンプルデータ「ビッグ クラス.jmp」を用いて、身長と体重の散布図を、性別のF(女性)とM(男性)の文字をマーカーに指定して描いてみます。
さらに見やすくするために、マーカー「F」には赤色を、マーカー「M」には青色をつけてみます。

まずは、男性のデータをM、女性のデータをFとするマーカーを指定します。
[行]→[列の値による色/マーカー分け]を用いる方法もありますが、ここではデータフィルタによって対象を絞り込んでから、 マーカーと色を指定する方法をご紹介します。

●列の値ごとにマーカーの種類、色を指定

  1. サンプルデータ「ビッグ クラス.jmp」を開いた状態で、[行]→[データフィルタ]を選択します。
  2. フィルタ列の選択で「性別」を選択して[追加]ボタンを押し、「性別 = F」をクリックします。データテーブルに戻ると、性別=Fのデータ行がすべて選択されます。

    データフィルタ
  3. 行が選択された状態で、メニューバーの[行]→[マーカー]→[その他]を選択します。「マーカーとして使用する文字」に「F」と入力して[OK]をクリックします。
    fig fig
  4. さらに、[行]→[色]で表示されるカラーマップから、赤に相当する色を選択します。
  5. 上記 2から4と同様の手順を、性別=Mについても実行します。Mの色は青に相当する色を選択します。

上記の操作を行うと、行番号の左側に赤色のF、青色のMが表示されます。これらの文字がマーカーとして用いられます。

fig

散布図の描画

それでは、[二変量の関係]を用いて、身長と体重の散布図を描いてみましょう。

[分析]→[二変量の関係]を選択し、次のように列を指定して[OK]をクリックします。

  • [Y, 目的変数]:「体重(ポンド)」
  • [X, 説明変数]:「身長(インチ)」

下図のような散布図が描かれます。
マーカーサイズは、散布図上を右クリック(Macintoshでは、control+クリック)して表示されるメニューから、[マーカーサイズ]を指定して変更できます。
デフォルトでは、「1.小」に設定されています。この散布図では「4, XL」に変更しています。

fig

ちなみに、ひらがなや漢字を指定することもできます。今回の例では、Mを「男」、Fを「女」というマーカーに指定することもできます。
散布上にマーカーとして「男」や「女」という文字がたくさん表示されていれば、かなりインパクトがありますね。

≪JMPグラフ≫ 都道府県別データの可視化

ご存じのとおり、日本は47の都道府県から構成されています。
都道府県別に人口数をみる、ある作物の出荷量をみるといったとき、どのようなグラフ化が有効でしょうか。
データを扱う立場で考えると、47個のカテゴリーがあるため、非常に多くのカテゴリーを扱うことになります。 単純に棒グラフや円グラフなどでグラフ化すると、カテゴリー数が多いことにより、データのパターンが見つけにくいこともあります。

そこで、JMPのさまざまなグラフ機能を用いて、都道府県別のデータの可視化を行ってみましょう。

例として、都道府県別の交通事故発生件数(2009年)のデータを可視化してみます。
以下に、今回用いるJMPのデータの一部を示します。

fig

とりあえず、棒グラフで

よく用いられるのは、都道府県別に発生件数を棒で示す「棒グラフ」でしょう。
棒グラフは 、グラフメニューにある [チャート] でも描くことができますが、同じくグラフメニューにある [グラフビルダー] を用いて、 次のようなグラフを描くこともできます。 データテーブルの列「都道府県」には、列プロパティとして[データの出現順]を設定し、 北から南にかけて都道府県のカテゴリー順が並ぶようにしています。

fig
(クリックすると大きな画像が開きます)

グラフから都道府県別にみると発生件数にばらつきがあることや、香川県の発生件数が多いことなどがわかります。
都道府県ごとに発生件数を比較するには、発生件数の大きい順に並べ替えてみるのが良いでしょう。 グラフビルダーでは、次の操作で、発生件数の大きい順に並べることができます。

操作:サイズが大きい順にデータを並び替える

  1. グラフビルダーでYに指定している列「交通事故発生件数」を選択し、X軸のすぐ上にドロップします。列をドロップする前に、青色の5つの辺からなる枠が表示されます。
  2. X軸を右クリックして [昇順]を選択し、チェックをはずします。

次のようなグラフが作成されます。

fig
(クリックすると大きな画像が開きます)

香川県の棒は、他の都道府県に比べ飛び抜けていますね(画像をクリックして拡大してみてください)。
ここで用いている件数は人口10万人あたりの件数ですが、事故件数が多いと勝手に思っていた東京都は、下から数えて8番目です。人口数の割には、事故件数が少ないといったところでしょうか。

カテゴリー数が多い場合は、ツリーマップが良いかも

あまり見慣れない、聞き慣れない方が多いかと思いますが、JMPでは、ツリーマップというグラフを描くことができます。
カテゴリー数が多い場合にパターンを図示するグラフの一つとして用いられます。さらに、マップのサイズと色の濃淡により、2つの量的な変数を同時にみることができることが特徴です。

ツリーマップを描くには、グラフメニューの [ツリーマップ] を選択します。
今回のデータに対して、「人口」や「経度」、「緯度」の変数も用い、ツリーマップを2パターン描いてみます。

● パターン1
fig
(クリックすると大きな画像が開きます)

都道府県ごとにサイズが異なる長方形が描かれていますが、ここでは人口の多さが長方形のサイズに比例します。
それぞれの長方形の色は、右側の凡例にあるとおり交通事故発生件数を示しています。濃い青は発生件数が少なく、濃い赤は発生件数が多いことになります。

このツリーマップは、次のように列を指定して描いています。

fig

[カテゴリ] は必須の設定で、ここでは「都道府県」を指定します。
[サイズ]と[色分け] については前述のとおり、それぞれ「人口」と「交通事故発生件数」を選びます。さらに [順序]として「経度」、「緯度」の順に指定しています。この場合、マップの横方向(水平方向)は経度に、マップの縦方向(垂直方向)は緯度に従って並べられます。そのため、このツリーマップは何となく都道府県の地理的な位置関係に近いように長方形が配置されています。

大まかな地理的位置関係もわかり、発生件数だけでなく、人口の情報も含めることができるので、たとえば福岡県は「人口が比較的多く、事故発生件数も比較的多い県」だとわかります。

●パターン2
fig
(クリックすると大きな画像が開きます)

こちらは、関東地方や近畿地方などの地方ごとにまとめて描いたツリーマップです。

このツリーマップは、次のように列を指定して描いています。

fig

[カテゴリ] に「地方」、「都道府県」の順に2つの列を指定しています。このとき、まず地方によってグループ化され、グループ内で都道府県の長方形を配置します。

このパターンの「地方」と「都道府県」のように、カテゴリーが階層化されている例は多くあります。
日本だけでなくもっとグローバルに考えると、アジア、アメリカ、ヨーロッパなどの大陸があり、その下の階層に、たとえばアジアでは中国、韓国、日本などが分類されます。

JMPのツリーマップでは、[カテゴリ]に2つまで変数を指定可能で、2つの変数を指定すると階層化された状態でマッピングされます。

やはり、地図が良いでしょう

最新版のJMP 9では、グラフビルダーの「シェープ」ゾーンを用いることにより、地図を描くことができます。
ツリーマップと同様に、交通事故の発生件数で色分けをしています。

fig

操作:グラフビルダーによる地図データの作成

  1. グラフビルダーにおいて、「都道府県」をドラッグし、左下の「シェープ」のゾーンにドロップします。
  2. 「交通事故発生件数」をドラッグし、「色」のゾーンにドロップします。

こうして、地図を眺めると、東側に比べ、西側の地域の発生件数が多いことがわかります。
香川、宮崎、群馬、静岡と発生件数が多いですが、これらの県の共通点は?筆者にはよくわかりません。

使用しているデータは、総務省のWebページで発表している「統計でみる都道府県のすがた」から引用しています。
(データのダウンロードの際は、政府統計の総合窓口「e-Stat」にリンクされます)



編集後記

データの可視化については、ツタグラ(http://www.tsutagra.go.jp/)というWebページがとても面白いです。

このWebページは、経済産業省が環境や労働、人口などのデータをグラフィックで分かりやすく伝える方法を探ることを目的としているようです。
ページ内の「インフォグラフィックス一覧」を見ますと、あ、こんな可視化の方法があるのだと感心させられる内容が多いです。

可視化では、どのような表現方法にしろ、始めてそのグラフを見た人でも、すぐ内容が理解できることが重要だと思っています。今後JMPでも、どのような可視化機能が追加されるのか興味深いところです。

今年も、JMPテクニカルニュースをよろしくお願い申し上げます。