Histogram

Qu'est-ce qu'un histogramme ?

Un histogramme montre la forme des valeurs (c'est-à-dire la distribution) d'une variable continue.

Comment les histogrammes sont-ils utilisés ?

Les histogrammes vous aident à voir le centre, la dispersion et la forme d'un jeu de données. Vous pouvez également les utiliser comme un outil visuel pour vérifier la normalité. Les histogrammes sont l'un des sept outils de base du contrôle statistique de la qualité.

Quels sont les problèmes à prendre en compte ?

Les histogrammes constituent un excellent moyen d'évaluer les données. Ils peuvent être utilisés pour vérifier que les données ne contiennent pas de valeurs extrêmes ou aberrantes et pour comprendre la distribution de vos données. Il est important de comprendre la distribution d'une variable pour choisir les outils d'analyse statistique appropriés.

Les histogrammes montrent la répartition des données

Les histogrammes montrent la répartition de vos données. L'axe horizontal montre les valeurs des données, chaque barre comprenant une étendue de valeurs. L'axe vertical montre combien de points dans vos données sont issus de valeurs dans la plage spécifiée par la barre. Dans l'histogramme de la Figure 1, la barre montre le nombre de valeurs dans chaque plage. Par exemple, la première barre montre le nombre de valeurs qui tombent entre 30 et 35.

L'histogramme montre que le centre des données se situe autour de 45 et que la dispersion des données est comprise entre 30 et 65 environ. Il montre également que les données ont une forme de cloche. Cette forme est un indice visuel qui atteste que les données sont probablement issues d'une distribution normale. 

Figure 1 : Histogramme

Quelle est la différence entre les histogrammes et les diagrammes en barres ?

La principale différence entre les histogrammes et les diagrammes en barres est le type de données qui y sont représentées. Les histogrammes sont utilisés pour les données continues, tandis que les diagrammes en barres sont utilisés pour les données catégorielles ou nominales.

Les histogrammes ne contiennent pas d'écart entre les barres. Les barres représentent le nombre de valeurs se situant dans une étendue spécifiée sur l'axe horizontal. Les diagrammes en barres peuvent, quant à eux, présenter des écarts entre les barres. Les barres représentent les valeurs mesurées pour chaque catégorie.

Comment créer un histogramme ?

Pour générer un histogramme, il faut déterminer l'étendue des valeurs des données pour chaque barre. Les étendues des barres sont appelées des « bins ». La plupart du temps, les bins sont de taille égale. Dans ce cas, la hauteur des barres indique la fréquence des valeurs des données dans chaque bin. Par exemple, pour créer un histogramme d'âge en années, vous pouvez délimiter les bins par décennie (0-10, 11-20, etc.). La hauteur des barres indique alors le nombre de personnes dans chaque décennie.

Avec un logiciel, les bins sont définis par le programme. Toutefois, certains outils logiciels vous permettent de modifier le nombre de bins et les points de départ des bins, afin que vous puissiez explorer et mieux comprendre vos données.

La Figure 2 présente les mêmes données que celles de la Figure 1, mais avec beaucoup plus de barres. Vous pouvez toujours voir le centre, la dispersion et la forme des données. Cependant, la forme globale est plus difficile à distinguer que celle de la première figure.

 

Figure 2 : Histogramme de la Figure 1 avec plus de barres

La Figure 3 présente les mêmes données que la Figure 1, mais avec seulement trois barres (ou bins). Il est donc plus difficile de voir le centre, la forme et la dispersion des données.

Figure 3 : Histogramme de la Figure 1 avec moins de barres

L'animation ci-dessous montre comment utiliser JMP et son outil de saisie afin d'explorer les limites changeantes des bins pour les données présentées dans les Figures 1 à 3.

Figure 4 : Animation montrant l'outil interactif d'ajustement des bins disponible dans JMP.

Vous pouvez changer les valeurs de l'axe et les incréments de l'axe pour explorer vos données, même si votre logiciel ne vous laisse pas explorer interactivement.

Comment les valeurs de données extrêmes sont observées dans les histogrammes

Les histogrammes sont affectés par des valeurs extrêmes ou des valeurs aberrantes. Les Figures 5 et 6 montrent un jeu de données avec une valeur aberrante exclue et inclue. 

Figure 5 : Histogramme affichant des données sans valeurs aberrantes
Figure 6 : Histogramme affichant des données avec une valeur aberrante

Dans les figures ci-dessus, les deux histogrammes possèdent une échelle d'axe horizontal allant de 20 à 90. La plupart des logiciels afficheraient l'histogramme sans la valeur aberrante sur une échelle plus petite. La Figure 6 utilise la même échelle pour montrer que les valeurs aberrantes apparaissent plus haut que le reste des valeurs de données dans un histogramme. Vous pouvez également avoir des valeurs aberrantes inférieures au reste des valeurs des données ou des valeurs aberrantes aux deux extrémités de vos données.

Comment le coefficient d'asymétrie est observé dans les histogrammes

Tous les histogrammes ne sont pas symétriques. Les histogrammes montrent la distribution de vos données et il existe de nombreux types de distributions fréquemment utilisés. Les données sont, par exemple, souvent asymétriques. En statistiques, c'est ce que l'on appelle des données asymétriques. À titre d'illustration, la durée de vie des batteries de téléphones est souvent asymétrique, les batteries de certains téléphones ayant une durée de vie beaucoup plus longue. 

Figure 7 : Histogramme affichant des données presque symétriques
Figure 8 : Histogramme affichant des données qui présentent une asymétrie à gauche (négative)
Figure 9 : Histogramme affichant des données qui présentent une asymétrie à droite (positive)

La Figure 7 montre des données presque symétriques. Si vous imaginez plier le graphique en deux au milieu, chaque côté sera identique.

L'histogramme de la Figure 8 montre des données qui ne sont pas symétriques. Elles sont dissymétriques à gauche, avec une extrémité gauche plus longue de valeurs qui se prolongent vers la gauche. La statistique de dissymétrie est négative. 

L'histogramme de la Figure 9 montre également des données qui ne sont pas symétriques. Elles sont dissymétriques à droite, avec une extrémité droite plus longue de valeurs qui se prolongent vers la droite. La statistique de dissymétrie est positive. 

Comment observer les groupes dans les données des histogrammes ?

Si vous savez qu'il y a des groupes dans vos données, construire des histogrammes pour chaque groupe peut s'avérer plus pertinent que de construire un seul histogramme. Cependant, si vous hésitez ou si vous n'avez pas connaissance de l'existence de groupes, l'histogramme peut révéler un motif qui vous conduit à découvrir des groupes dans vos données.

Par exemple, le graphique dans la Figure 10 contient des données pour les hommes et les femmes. Nous pensons qu'il pourrait y avoir une différence dans les données des hommes et des femmes.

Figure 10 : Histogramme affichant des données de plusieurs groupes

Globalement en forme de cloche, ce graphique montre des données avec un centre proche de 22 et une dispersion comprise approximativement entre 7 et 32.

La Figure 11 montre les données pour les hommes avec la section striée de chaque barre. Les données pour les hommes sont globalement en forme de cloche.

Figure 11 : Histogramme de la Figure 10 mettant en évidence les données relatives aux hommes

Le graphique de la Figure 12 met en évidence les données relatives aux femmes avec des barres striées. Ces données sont globalement en forme de cloche.

Figure 12 : Histogramme de la Figure 10 mettant en évidence les données relatives aux femmes

Les graphiques ci-dessus montrent des exemples où la différence entre les groupes a un impact, mais où la dispersion globale des valeurs est la même pour les deux groupes. Lorsque vous comparez les histogrammes mis en évidence des hommes et des femmes, vous constaterez que les hommes sont plus susceptibles de présenter des valeurs inférieures que les femmes. Il y a beaucoup de superpositions, mais les histogrammes confirment l'idée qu'il existe une différence entre les hommes et les femmes.

La Figure 13 affiche des données pour lesquelles les deux groupes sont très différents. En observant l'histogramme global, vous remarquerez que les données ne sont pas en forme de cloche. Les données du premier groupe sont représentées par des barres striées. Ce groupe a globalement une forme de cloche, possède une dispersion d'environ 5 à 15 et un centre d'environ 9. Les données du deuxième groupe sont quant à elles représentées par des barres pleines. Ce groupe n'a pas vraiment de forme de cloche, affiche une dispersion de 20 à environ 32 et un centre d'environ 23.

Figure 13 : Histogramme affichant des données pour lesquelles les valeurs de chaque groupe sont sensiblement différentes

Ces graphiques permettent d'identifier une considération importante : chaque fois que vous créez un histogramme, demandez-vous s'il y a des groupes dans vos données. Si l'existence de groupes est possible, vous en apprendrez certainement davantage au sujet des données en créant des histogrammes séparés pour chaque groupe. Avec certains logiciels, vous pouvez explorer des différences de groupes dans un seul histogramme, comme le montrent les figures ci-dessus. 

Histogrammes et types de données

Données continues : conviennent aux histogrammes

Les histogrammes conviennent aux données continues puisque celles-ci sont mesurées sur une échelle avec de nombreuses valeurs possibles. Voici quelques exemples de données continues :

  • Âge
  • Pression artérielle
  • Pondération
  • Température
  • Vitesse

Pour tous ces exemples, un histogramme est un outil graphique approprié pour explorer la distribution des données.

Données catégorielles ou nominales : utiliser des diagrammes en barres

Les histogrammes ne conviennent pas pour les données catégorielles ou nominales puisque celles-ci sont mesurées sur une échelle avec seulement quelques valeurs possibles. Utilisez des  diagrammes en barres plutôt que des histogrammes.

Avec des données catégorielles, l'échantillon est souvent divisé en groupes et les réponses ont un ordre défini. Par exemple, dans une enquête où il vous est demandé de donner votre opinion sur une échelle allant de « Pas du tout d'accord » à « Tout à fait d'accord », vos réponses sont catégorielles.

Avec les données nominales, l'échantillon est également divisé en groupes mais sans ordre particulier. Le pays de résidence est un exemple de variable nominale. Vous pouvez utiliser l'abréviation du pays ou vous pouvez utiliser des nombres afin de coder le nom du pays. Dans tous les cas, vous nommez tout simplement les différents groupes de données.