Test du khi-deux de qualité de l'ajustement

Qu'est-ce que le test du khi-deux de qualité de l'ajustement ?

Le test du khi-deux de qualité de l'ajustement est un test d'hypothèse statistique utilisé pour déterminer si une variable est susceptible de provenir d'une distribution spécifiée ou pas. Il est souvent utilisé pour évaluer si des donnés d'échantillons sont représentatifs de l'ensemble de la population.

Quand puis-je utiliser le test ?

Vous pouvez utiliser le test lorsque vous avez des dénombrements de valeurs pour une variable catégorielle.

S'agit-il du même test que le test du khi-deux de Pearson ?

Oui.

Utiliser le test du khi-deux de qualité de l'ajustement

Le test du khi-deux de qualité de l'ajustement vérifie si les données d'échantillon sont susceptibles de provenir d'une distribution théorique spécifique. Nous avons un jeu de valeurs de données et une idée concernant la manière dont les valeurs de données sont distribuées. Le test nous donne le moyen de décider si les valeurs de données sont « suffisamment bonnes » pour s'adapter à notre idée ou si notre idée est discutable.

De quoi avons-nous besoin ?

Pour le test de qualité de l'ajustement, nous avons besoin d'une seule variable. Nous avons également besoin d'une idée ou d'une hypothèse concernant la manière dont la variable est distribuée. Voici quelques exemples :

  • Nous disposons de sacs de bonbons avec cinq saveurs dans chaque sac. Les sacs doivent contenir un nombre égal de pièces de chaque saveur. L'idée que nous aimerions tester est que les cinq saveurs sont présentes en proportions égales dans chaque sac.
  • Pour un groupe d'équipes sportives d'enfants, nous souhaitons que les enfants avec beaucoup d'expérience, avec une certaine expérience et sans aucune expérience soient mélangés de manière égale à travers l'ensemble des équipes. Supposons que nous sachions que 20 % des joueurs dans la ligue ont beaucoup d'expérience, que 60 % ont une certaine expérience et que 15 % sont de nouveaux joueurs sans aucune expérience. L'idée que nous aimerions tester est que chaque équipe a la même proportion d'enfants avec beaucoup d'expérience, avec une certaine expérience et sans aucune expérience que la ligue dans son ensemble.

Pour appliquer le test de qualité de l'ajustement au jeu de données, nous avons besoin des éléments suivants :

  • Des valeurs de données qui ne sont pas un simple échantillon aléatoire issu de l'ensemble de la population.
  • Données catégorielles ou nominales. Le test du khi-deux de qualité de l'ajustement n'est pas adapté aux données continues.
  • Un jeu de données qui est suffisamment large pour qu'au moins cinq valeurs soient attendues dans chacune des catégories de données observées. 

Exemple de test du khi-deux de qualité de l'ajustement

Utilisons des sacs de bonbons comme exemple. Nous collectons un échantillon aléatoire de dix sacs. Chaque sac contient 100 pièces de bonbons et cinq saveurs. Notre hypothèse est que les cinq saveurs sont présentes en proportions égales dans chaque sac.

Commençons par répondre à la question suivante : le test du khi-deux de qualité d'ajustement est-il une méthode appropriée pour évaluer la distribution des saveurs dans des sacs de bonbons ?

  • Nous avons un échantillon aléatoire simple de 10 sacs de bonbons. Nous satisfaisons cette exigence.
  • Notre variable catégorielle désigne les saveurs des bonbons. Nous avons le dénombrement de chaque saveur dans 10 sacs de bonbons. Nous satisfaisons cette exigence.
  • Chaque sac a 100  bonbons. Chaque sac a cinq saveurs de bonbons. Nous attendons un nombre égal pour chaque saveur. Cela signifie que nous attendons 100 / 5 = 20 bonbons pour chaque saveur de chaque sac. Pour 10 sacs dans notre échantillon, nous nous attendons à 10 x 20 = 200 bonbons pour chaque saveur. Ceci est supérieur à l'exigence de cinq valeurs attendues pour chaque catégorie.

En fonction des réponses ci-dessus, oui, le test du khi-deux de qualité de l'ajustement est une méthode appropriée pour évaluer la distribution des saveurs dans des sacs de bonbons.

La Figure 1 ci-dessous montre les dénombrements de saveurs combinées de 10 sacs de bonbons.

Figure 1 : Diagramme en barres des dénombrements de saveurs de bonbons de 10 sacs

Sans effectuer de calcul statistique, nous pouvons voir que le nombre de pièces pour chaque saveur n'est pas le même. Certaines saveurs ont moins que les 200 pièces attendues, tandis que d'autres en ont plus. Mais à quel point les proportions de saveurs sont-elles différentes ? Le nombre de pièces est-il « suffisamment proche » pour que nous en tirions la conclusion que sur de nombreux sacs, il y a le même nombre de pièces pour chaque saveur ? Ou bien est-ce que le nombre de pièces est trop différent pour que nous en tirions cette conclusion ? En d'autres termes, est-ce que les valeurs de nos données s'ajustent « suffisamment bien » à l'idée de quantités égales de pièces de bonbons pour chaque saveur ?

Pour décider cela, nous déterminons la différence entre ce que nous avons et ce que nous attendons. Ensuite, pour donner aux saveurs ayant moins d'éléments que ce que nous attendons la même importance qu'aux saveurs ayant plus d'éléments que ce que nous attendons, nous élevons cette différence au carré. Ensuite, nous divisons le carré par le dénombrement attendu et effectuons la somme de ces valeurs. Cela nous donne notre statistique de test.

Ces étapes sont beaucoup plus faciles à comprendre en utilisant les nombres issus de notre exemple.

Commençons par dresser une liste de ce que nous attendons si chaque sac avait le même nombre de bonbons pour chaque saveur.  Ci-dessus, nous avons déterminé le nombre de 200 pour 10 sacs de bonbons.

Table de données 1 : Comparaison de la quantité d'éléments observée vs attendue pour chaque saveur de bonbons

SaveurNombre de bonbons (10 sacs)Nombre attendu de bonbons
Pomme180200
Citron250200
Cerise120200
Cerise225200
Raisin225200

Maintenant, trouvons la différence entre les dénombrements observés dans nos données et les dénombrements attendus. La dernière colonne dans le Tableau 2 montre cette différence :

Tableau 2 : Différence entre les dénombrements de bonbons observés et attendus par saveur

SaveurNombre de bonbons (10 sacs)Nombre attendu de bonbonsObservés-Attendus
Pomme180200180-200 = -20
Citron250200250-200 = 50
Cerise120200120-200 = -80
Orange225200225-200 = 25
Raisin225200225-200 = 25

Certaines différences sont positives et d'autres sont négatives. Si nous les ajoutions, nous obtiendrions zéro. Au lieu de cela, nous élevons les différences au carré. Cela donne une importance égale aux saveurs de bonbons qui ont moins d'éléments qu'attendus et aux saveurs qui ont plus d'éléments qu'attendus.

Tableau 3 : Calcul de la différence au carré entre les les dénombrements observés et attendus pour chaque saveur de bonbon

SaveurNombre de bonbons (10 sacs)Nombre attendu de bonbonsObservés-AttendusDifférence au carré
Pomme180200180-200 = -20400
Citron250200250-200 = 502500
Cerise120200120-200 = -806400
Orange225200225-200 = 25625
Raisin225200225-200 = 25625

Ensuite, nous divisons la différence au carré par la quantité attendue :

Tableau 4 : Calcul de la différence au carré / Nombre de bonbons attendus par saveur

SaveurNombre de bonbons (10 sacs)Nombre attendu de bonbonsObservés-AttendusDifférence au carréDifférence au carré / Nombre attendu
Pomme180200180-200 = -20400400 / 200 = 2
Citron250200250-200 = 5025002500 / 200 = 12,5
Cerise120200120-200 = -8064006400 / 200 = 32
Orange225200225-200 = 25625625 / 200 = 3,125
Raisin225200225-200 = 25625625 / 200 = 3,125

Enfin, nous ajoutons les nombres dans la colonne finale pour calculer notre statistique de test :

$ 2 + 12,5 + 32 + 3,125 + 3,125 = 52,75 $

Afin de prendre notre décision, nous comparons le test statistique à la valeur critique dans la distribution khi-deux. Cette activité comprend quatre étapes :

  1. Nous décidons, tout d'abord, du risque que nous sommes disposés à prendre en tirant une conclusion incorrecte fondée sur les observations de notre échantillon. Pour les données des bonbons, nous décidons, avant de collecter les données, que nous sommes disposés à prendre un risque de 5 % en concluant que les dénombrements de saveurs dans chaque sac de l'ensemble de la population ne sont pas égaux, alors qu'en réalité, ils le sont. Statistiquement parlant, nous définissons le seuil de significativité, α, à 0,05.
  2. Nous calculons une statistique de test. Notre statistique de test est 52,75.
  3. Nous trouvons la valeur critique de la distribution khi-deux en fonction de notre seuil de significativité. La valeur théorique est la valeur que nous attendrions si les sacs contenaient le même nombre de bonbons pour chaque saveur.

    En plus du seuil de significativité, nous avons également besoin des degrés de liberté pour trouver cette valeur. Pour le test de qualité de l'ajustement, il s'agit d'une unité de moins que le nombre de catégories. Nous avons cinq saveurs de bonbons, donc nous avons 5 – 1 = 4 degrés de liberté.

    La valeur du khi-deux avec α = 0,05 et 4 degrés de liberté est 9,488.
  4. Nous comparons la valeur de notre statistique de test (52,75) à la valeur du khi-deux. Puisque 52,75 > 9,488, nous rejetons l'hypothèse nulle selon laquelle les proportions de saveurs de bonbons sont égales.

 

Nous en tirons une conclusion pratique que les sacs de bonbons sur l'ensemble de la population n'ont pas un nombre égal de pièces pour les cinq saveurs. Ceci semble cohérent si l'on observe les données d'origine. Si votre saveur préférée est Citron, vous aurez probablement plus de bonbons de votre saveur préférée que des autres saveurs. Si votre saveur préférée est Cerise, vous serez probablement déçu(e) de voir qu'il y aura moins de bonbons à la Cerise que vous ne l'espériez.

Comprendre les résultats

Utilisons des graphiques pour comprendre le test et les résultats.

Un simple diagramme en barres des données montre les dénombrements observés pour les saveurs de bonbons :

 

Figure 2 : Diagramme en barres des dénombrements observés pour les saveurs de bonbons

Un autre diagramme en barres simple montre les dénombrements attendus de 200 par saveur. Voici ce à quoi ressemblerait notre diagramme si les sacs de bonbons avaient un nombre égal de pièces par saveur.

Figure 3 : Diagramme en barres des dénombrements attendus pour chaque saveur

Le diagramme aligné ci-dessous montre le nombre observé de bonbons en bleu. Les barres orange montrent le nombre attendu de bonbons. Vous pouvez constater que certaines saveurs ont plus de bonbons que le dénombrement attendu, tandis que d'autres saveurs en ont moins.

Figure 4 : Diagramme en barres comparant les dénombrements de bonbons observés et attendus

Le test statistique est une manière de quantifier la différence. Est-ce que les données observées dans notre échantillon sont « suffisamment proches » des résultats attendus pour conclure que les proportions de saveurs dans l'ensemble de la population de sacs sont égales ? Ou pas ? D'après les données de bonbons ci-dessus, la plupart des personnes diraient que les données sont « suffisamment proches », même sans test statistique.

Et si vos données ressemblaient plutôt à l'exemple dans la Figure 5 ci-dessous ? Les barres violettes montrent les dénombrements observés et les barres orange montrent les dénombrements attendus. Certaines personnes soutiendraient que les données sont « suffisamment proches » mais d'autres soutiendraient le contraire. Le test statistique fournit un moyen courant de prendre la décision, de manière à ce que tout le monde puisse prendre la même décision concernant les données. 

Figure 5 : Diagramme en barres comparant les valeurs attendues et observées utilisant un autre exemple de jeu de données

Informations statistiques

Observons les données relatives aux bonbons et le test du khi-deux de qualité de l'ajustement en utilisant des termes statistiques. Ce test est également appelé test du khi-deux de Pearson.

Notre hypothèse nulle est que les proportions de saveurs dans chaque sac sont les mêmes. Nous avons cinq saveurs. L'hypothèse nulle est exprimée de la manière suivante :

$ H_0: p_1 = p_2 = p_3 = p_4 = p_5 $

La formule ci-dessus utilise p pour la proportion de chaque saveur. Si chaque sac de 100 bonbons contient le même nombre de bonbons pour chacune des cinq saveurs, alors le sac contient 20 bonbons de chaque saveur. La proportion de chaque saveur est de 20 / 100 = 0,2.

L'hypothèse contraire est qu'au moins une des proportions est différente des autres. Ceci est exprimé de la manière suivante :

$ H_a: au\ moins\ une\ p_i\ pas\ égale $

Dans certains cas, nous ne testons pas des proportions égales. Examinez à nouveau l'exemple des équipes de sports d'enfants vers le haut de cette page. En utilisant ceci comme exemple, nos hypothèses nulle et contraire sont :

$ H_0: p_1 = 0,2, p_2 = 0,65, p_3 = 0,15 $

$ H_a: au\ moins\ une\ p_i\ pas\ égale\ à\ valeur\ attendue $

Contrairement aux autres hypothèses qui impliquent un seul paramètre de population, nous ne pouvons utiliser simplement une formule. Nous avons besoin de mots autant que de symboles pour décrire nos hypothèses.

Nous calculons la statistique de test en utilisant la formule ci-dessous :

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

Dans la formule ci-dessus, nous avons n groupes. Le symbole $ \sum $ représente la somme des calculs pour chaque groupe. Pour chaque groupe, nous suivons les mêmes étapes que dans l'exemple des bonbons. La formule montre Oi  comme la valeur Observée et Ei  comme la valeur Attendue pour un groupe.

Nous comparons ensuite le test statistique à une valeur khi-deux avec notre seuil de significativité choisi (également appelé niveau alpha) et les degrés de liberté de nos données. En utilisant les données des bonbons comme exemple, nous définissions α = 0,05 et nous obtenons quatre degrés de liberté. Pour les données de bonbons, la valeur du khi-deux est exprimée de la manière suivante :

$ χ²_{0.05,4} $

Il y a deux résultats possibles à partir de notre comparaison :

  • Le test statistique est plus bas que la valeur khi-deux. Vous échouez à rejeter l'hypothèse des proportions égales. Vous en concluez que les sacs de bonbons dans l'ensemble de la population ont le même nombre de pièces pour chaque saveur. L'ajustement de proportions égales est « convenable ».
  • Le test statistique est plus élevé que la valeur du khi-deux. Vous échouez à rejeter l'hypothèse des proportions égales. Vous ne pouvez en conclure que les sacs de bonbons ont le même nombre de pièces pour chaque saveur. L'ajustement de proportions égales est « convenable ».

Utilisons un graphique de la distribution khi-deux pour mieux comprendre les résultats du test. Vous souhaitez vérifier que votre statistique de test est une valeur plus extrême dans la distribution que la valeur critique. Le graphique ci-dessous montre la distribution khi-deux avec quatre degrés de liberté. Il montre comment la valeur critique de 9,488 « coupe » 95 % des données. Seules 5 % des données sont supérieures à 9,488.

Figure 6 : Distribution khi-deux pour quatre degrés de liberté

Le prochain graphique de distribution comprend nos résultats. Vous pouvez observer à quel point notre test statistique est loin « dans l'extrémité », représentée par la ligne pointillée à 52,75. En fait, avec cette échelle, il semblerait que la courbe soit à zéro au point d'intersection avec la ligne pointillée. Ce n'est pas le cas, mais elle est tout de même très proche de zéro. Nous en concluons qu'il est peu probable que cette situation soit le fruit du hasard. Si la vraie population de sacs de bonbons avait des dénombrements de saveurs égaux, il semblerait peu probable que nous observions les résultats que nous avons collectés dans notre échantillon aléatoire de 10 sacs.

Figure 7 : Distribution khi-deux pour quatre degrés de liberté avec représentation graphique du test statistique

Les logiciels statistiques indiquent la p-value d'un test. Il s'agit de la vraisemblance de trouver une valeur plus extrême pour la statistique de test dans un échantillon similaire, en supposant que l'hypothèse nulle est correcte. Il est difficile de calculer la p-value manuellement. Pour la figure ci-dessus, si le test statistique est exactement 9,488 alors la p-value sera p=0,05. Avec un résultat de 65,03 la valeur p est très, très petite. Dans cet exemple, la plupart des logiciels statistiques signaleront la p-value comme « p < 0,0001 ». Cela signifie que la vraisemblance d'un autre échantillon de 10 sacs de bonbons résultant en une valeur plus extrême pour la statistique de test est inférieure à une chance sur 10 000, en supposant que notre hypothèse nulle de dénombrements égaux de saveurs est vraie.