ヒストグラム

ヒストグラムとは?

ヒストグラムは、連続変数の値の形状つまり分布を表します。

ヒストグラムの使用方法

ヒストグラムは、データセットの中心や、広がり、形状を確認するのに役立ちます。また、正規性を確認するための視覚的なツールとして使用することもできます。ヒストグラムは、統計的品質管理における基本的な7つ道具のうちの1つです。

考慮すべき問題とは?

ヒストグラムは、データを評価するための優れた方法になります。ヒストグラムは、データの極値または外れ値をチェックし、データの分布を理解するのに役立ちます。適切な統計分析ツールを選択する際には、変数の分布を理解することが重要です。

データの形状を示すヒストグラム

ヒストグラムは、データの形状を示します。横軸はデータ値を示し、各棒には値の範囲が含まれます。縦軸は、棒の指定された範囲内に値を持つデータ点の数を示します。図1のヒストグラムでは、棒は各範囲の値の数を示しています。例えば、最初の棒には、30から35の間にある値の数が表示されます。

ヒストグラムは、データの中心が約45であり、データの広がりが約30から65であることを示しています。また、データの形状がおおよそ山型であることを示しています。この形状は、データが正規分布からのものである可能性が高いことの視覚的な手がかりになります。

図1:ヒストグラム

ヒストグラムと棒グラフの違いとは?

ヒストグラムと棒グラフの主な違いは、プロットされるデータの種類です。ヒストグラムは連続尺度データで使用されます。棒グラフは、カテゴリカルデータまたは名義尺度データで使用されます。

ヒストグラムでは、棒の間に間隔がありません。棒は、横軸に指定された範囲内にある値の数を表します。棒グラフでは、棒の間に間隔があります。棒は、各カテゴリの測定値を表します。

ヒストグラムの作成方法

ヒストグラムを生成するには、各棒のデータ値の範囲を決める必要があります。棒の範囲はビンと呼ばれます。ほとんどの場合、ビンは同じサイズです。等しいビンに対して、棒の高さは各ビンのデータ値の頻度を示します。例えば、年齢のヒストグラムを年単位で作成するために、ビンを10年ごとに定義します(0~10、11~20など)。この時、棒の高さは、10年ごとの人数を示します。

ソフトウェアでは、ビンはプログラムによって定義されます。ただし、一部のソフトウェアツールでは、ビンの数とビンの開始点を変更することで、データを探索して理解を深めることができます。

図2は、図1と同じデータを示していますが、より多くの棒があります。データの中心、広がり、形状を引き続き確認できます。しかし、最初の図に比べて全体の形状がわかりにくくなっています。

 

図2:図1よりも棒の数が多いヒストグラム

図3は、図1と同じデータを示していますが、3つの棒またはビンのみが含まれています。データの中央、形状、および広がりを確認するのは非常に困難です。

図3:図1よりも棒の数が少ないヒストグラム

以下のアニメーションは、JMPと手のひらツールを使用して、図1〜3に示したデータのビンの境界を変更する方法を示しています。

図4:JMPで利用できる対話的なビンの調整ツールを示すアニメーション

ソフトウェアで対話的に探索できない場合でも、軸の値と軸の増分を変更して、データを探索するといいでしょう。

ヒストグラムで極端なデータ値がどのように観察されるか

ヒストグラムは、極値または外れ値の影響を受けます。図5と図6は、外れ値を除いた、もしくは含めたデータセットを示しています。

図5:外れ値のないデータを表示したヒストグラム
図6:外れ値のあるデータを表示したヒストグラム

上の図では、両方のヒストグラムの横軸の目盛りは20〜90です。ほとんどのソフトウェアは、外れ値のないヒストグラムをより小さな目盛りで表示します。図6は、同じ目盛りを使用して、ヒストグラムに外れ値がどのように表示されるかを示しています。これは、他のデータ値よりも大きくなっています。外れ値が他のデータ値よりも小さい場合や、またはデータの両端に外れ値がある場合もあります。

ヒストグラムで歪度がどのように観察されるか

すべてのヒストグラムが対称的なわけではありません。ヒストグラムはデータの分布を表示し、分布には多くの一般的なタイプがあります。例えば、データは非対称であることがよくあります。統計では、これは歪みのあるデータと呼ばれます。例えば、電話のバッテリー寿命はしばしば歪んでおり、一部の電話では大半の電話よりもバッテリー寿命がはるかに長いことがあります。

図7:ほぼ対称的なデータを表示したヒストグラム
図8:左(負)に歪んだデータを表示したヒストグラム
図9:右(正)に歪んだデータを表示したヒストグラム

図7は、ほぼ対称的なデータを示しています。プロットを中央で半分に折りたたむことを考えると、両側はほぼ重なります。

図8のヒストグラムは、非対称なデータを示しています。左に歪んでいて、値の長い裾が左側に続いています。歪度統計量は負です。

図9のヒストグラムにも、非対称のデータが示されています。右に歪んでいて、値の長い裾が右側に続いています。歪度統計量は正です。

データのグループはヒストグラムでどのように観察されるか

データにグループがあることがわかっている場合は、単一のヒストグラムを作成するよりも、グループごとにヒストグラムを作成する方が適している場合があります。ただし、グループがあるかどうかわからない、または知らない場合は、データ内のグループの発見につながるようなパターンが、ヒストグラムに現れるかもしれません。

例えば、図10のグラフには、男性と女性のデータが含まれています。男性と女性のデータに差があるのではないかと考えているとします。

図10:さまざまなグループに関するデータを表示したヒストグラム

ほぼ山型のこのグラフは、中心は22付近で、約7から約32までの広がりのあるデータを示しています。

図11で、各棒の縞模様で強調表示された部分は、男性のデータを示しています。男性のデータはおおよそ山型に見えます。

図11:図10で男性のデータを強調表示したのヒストグラム

図12のグラフでは、女性のデータを縞模様の棒で強調表示して示しています。このデータもほぼ山型に見えます。

図12:図10で女性のデータを強調表示したヒストグラム

上のグラフは、グループ間の違いが影響を与える例を示しています。一方で、値の全体的な広がりは2つのグループで同じです。男性と女性の強調表示されたヒストグラムを比較すると、男性の方が女性よりも値が低い可能性が高いことがわかります。多くの重複がありますが、ヒストグラムは男性と女性の間に差があるという考えを裏付けています。

図13は、2つのグループが大きく異なるデータを示しています。全体のヒストグラムを見ると、データは山型ではありません。グラフは、縞模様の棒で強調表示された1つのグループのデータを示しています。このグループはおおよそ山型の分布をしており、広がりは約5から15で、中心は約9です。グラフは2番目のグループのデータを実線の棒で示しています。これは山型に近くはなく、広がりは20から約32、中心は約23です。

図13:各グループの値が著しく異なるデータを表示したヒストグラム

これらのグラフは、重要な検討事項を特定するのに役立ちます。ヒストグラムを作成するときは常に、データにグループがあるかどうかを検討してください。グループの可能性がある場合は、グループごとに個別にヒストグラムを作成することで、データについて詳しく知ることができます。一部のソフトウェアでは、上の図に示したように、単一のヒストグラムでグループの違いを調べることができます。

ヒストグラムとデータの種類

連続尺度データ:ヒストグラムに適しています

連続尺度データは、多くの可能な値を持つスケールで測定されるため、ヒストグラムに適しています。連続尺度データの例は次のとおりです。

  • 経過時間
  • 血圧
  • 重み
  • 温度
  • 速度

これらすべての例で、ヒストグラムはデータの分布を調べるための適切なグラフィカルツールです。

カテゴリカルデータまたは名義尺度データ:棒グラフを使用します

カテゴリカルデータまたは名義尺度データは、可能な値が僅かしかないスケールで測定されるため、ヒストグラムに適していません。ヒストグラムの代わりに棒グラフを使用します。

カテゴリカルデータでは、標本はグループに分割されることが多く、応答が特定の順序をもつ場合もあります。例えば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を述べるように求められる調査では、応答はカテゴリカルです。

名義尺度データでも、標本はグループに分割されますが、特定の順序はありません。居住国は名義尺度変数の一例です。国の略語を使用することも、数字を使用して国名をコーディングすることもできます。いずれにせよ、データのさまざまなグループに名前を付けるだけです。