Test de Student à deux échantillons

Qu'est-ce que le test de Student à deux échantillons ?

Le test de Student à deux échantillons (également appelé test de Student à échantillons indépendants) est une méthode utilisée pour tester si les moyennes d'une population inconnue sont égales ou pas.

Est-ce la même chose qu'un test A/B ?

Oui, un test de Student à deux échantillons est utilisé pour analyser les résultats des tests A/B.

Quand puis-je utiliser le test ?

Vous pouvez utiliser le test lorsque vos valeurs de données sont indépendantes, sont échantillonnées de manière aléatoire à partir de deux populations normales et que les deux groupes indépendants ont des variances égales.

Que faire si j'ai plus de deux groupes ?

Utilisez une méthode de comparaison multiple. L'analyse de la variance (ANOVA) fait partie de ces méthodes. D'autres méthodes de comparaison multiple comprennent le test de Tukey-Kramer de toutes les différences par paire, l'analyse des moyennes (ANOM) pour comparer les moyennes du groupe à la moyenne globale, ou le test de Dunnett pour comparer chaque moyenne du groupe à la moyenne de contrôle.

Et si les variances pour mes deux groupes ne sont pas égales ?

Vous pouvez toujours utiliser le test de Student à deux échantillons. Vous utilisez une estimation différente de l'écart-type. 

Qu'en est-il si mes données ne sont pas distribuées presque normalement ?

Si la taille de votre échantillon est très petite, il peut s'avérer très difficile de tester la normalité. Vous pourriez avoir besoin de vous fier à votre propre compréhension des données. Lorsque vous ne pouvez pas supposer la normalité avec certitude, vous pouvez effectuer un test non paramétrique qui ne suppose pas la normalité.

Utiliser un test de Student à deux échantillons

Les sections ci-dessous montrent ce qui est requis pour effectuer le test, vérifier nos données, la manière d'effectuer le test et les détails statistiques.

De quoi avons-nous besoin ?

Pour le test de Student à deux échantillons, nous avons besoin de deux variables. Une variable définit les deux groupes. La deuxième variable est la mesure d'intérêt.

Nous avons également l'idée ou l'hypothèse que les moyennes des populations sous-jacentes pour les deux groupes sont différentes. Voici quelques exemples :

  • Nous avons des étudiants dont l'anglais est la première langue parlée et d'autres pour qui ce n'est pas le cas. Tous les étudiants effectuent un test de lecture. Nos deux groupes sont des interlocuteurs de langue anglaise natifs et des interlocuteurs non natifs. Nos mesures sont les notes du test. Notre idée est que la moyenne des notes de test pour les populations sous-jacentes des interlocuteurs d'anglais natifs et non natifs ne sont pas les mêmes. Nous souhaitons savoir si la note moyenne de la population des anglophones natifs est différente de celle des personnes qui ont appris l'anglais comme deuxième langue.
  • Nous mesurons les grammes de protéines de deux marques différentes de barres énergétiques. Nos deux groupes sont les deux marques. Nos mesures sont les grammes de protéines pour chaque barre énergétique. Notre idée est que les moyennes des grammes de protéines pour les populations sous-jacentes des deux marques pourraient être différentes. Nous souhaitons savoir si nous disposons de preuves que les moyennes des grammes de protéines pour les deux marques des barres énergétiques sont différentes ou pas.

Hypothèses du test de Student à deux échantillons

Pour effectuer un test valide :

  • Les valeurs de données doivent être indépendantes. Les mesures pour une observation n'affectent pas les mesures pour toute autre observation.
  • Les données dans chaque groupe doivent être obtenues via un échantillon aléatoire de la population.
  • Les données dans chaque groupe doivent être distribuées normalement.
  • Les valeurs des données sont continues.
  • Les variances pour les deux groupes indépendants sont égales.

Pour de très petits groupes de données, il peut s'avérer difficile de tester ces exigences. Ci-dessous, nous détaillerons comment vérifier les exigences en utilisant un logiciel, ainsi que les actions à prendre lorsqu'une exigence n'est pas satisfaite.

Exemple de test de Student à deux échantillons

Une manière de mesurer la forme physique des personnes consiste à mesurer leur indice de masse grasse. Le pourcentage de masse grasse moyenne varie en fonction de l'âge mais d'après les guides de référence, l'étendue normale de masse grasse pour les hommes se situe entre 15 et 20 % et l'étendue normale de masse grasse pour les femmes se situe entre 20 et 25 %.

Nos données d'échantillons sont issues d'un groupe d'hommes et de femmes qui se sont rendus dans une salle de sport trois fois par semaine pendant un an. Ensuite, leur entraîneur a mesuré leur masse grasse. Le tableau ci-dessous montre les données.

Table de données 1 : Données sur le pourcentage de masse grasse corporelle regroupées par sexe

Grouper (v) Groupe (n)Pourcentages de masse grasse

Hommes

13,36,020,08,014,0
19,018,025,016,024,0
15,01,015,0  

Femmes

22,016,021,721,030,0
26,012,023,228,023,0

Vous pouvez clairement constater une certaine superposition dans les mesures de la masse grasse corporelle des hommes et des femmes de notre échantillon, mais aussi quelques différences. En jetant simplement un œil aux données, il est difficile de tirer des conclusions définitives afin de savoir si les populations sous-jacentes d'hommes et de femmes qui fréquentent la salle de sport ont la même masse grasse corporelle moyenne. C'est là toute la valeur des tests statistiques : ils fournissent une méthode de prise de décision commune et statistiquement valable, afin que tout le monde prenne la même décision en se basant sur le même jeu de valeurs de données.

Vérifier les données

Commençons par répondre à la question suivante : le test de Student à deux échantillons est-il une méthode appropriée pour évaluer la différence de masse grasse corporelle entre les hommes et les femmes ?

  • Les valeurs de données sont indépendantes. La masse grasse corporelle d'une personne ne dépend pas de celle d'une autre personne.
  • Nous supposons que les personnes mesurées représentent un simple échantillon aléatoire de la population des membres de la salle de sport.
  • Nous supposons que les données sont normalement distribuées, et nous pouvons vérifier cette hypothèse.
  • Les valeurs des données sont exprimées en mesures de la masse grasse corporelle. Les mesures sont continues.
  • Nous supposons que les variances des hommes et des femmes sont égales, et nous pouvons vérifier cette hypothèse.

Avant de débuter l'analyse, nous examinons toujours brièvement les données. La figure ci-dessous montre des histogrammes et des résumés statistiques pour les hommes et les femmes.

Figure 1 : Histogramme et résumé statistique pour les données relatives à la masse grasse corporelle

Les deux histogrammes sont sur la même échelle. À partir d'un examen rapide, nous ne voyons aucun point très inhabituel ni de valeurs aberrantes. Les données ont approximativement une forme de cloche. Ainsi, notre idée initiale d'une distribution normale semble raisonnable.

En examinant le résumé statistique, nous voyons que les écarts-types sont similaires. Ceci corrobore l'idée de variances égales. Nous pouvons également vérifier cela en utilisant un test de variances.

D'après ces observations, le test de Student à deux échantillons apparaît comme une méthode appropriée pour tester la différence des moyennes.

Comment effectuer un test de Student à deux échantillons ?

Pour chaque groupe, nous avons besoin de la moyenne, de l'écart-type et de la taille de l'échantillon. Ces valeurs figurent dans le tableau ci-dessous.

Table de données 2 : Moyenne, écart-type et taille de l'échantillon groupés par sexe

Grouper (v) Groupe (n)Taille de l'échantillon (n)Moyenne (X-barre)Écart-type (s)
Femmes1022,295,32
Hommes1314,956,84

Sans effectuer de tests, nous pouvons constater que les moyennes des hommes et des femmes dans nos échantillons ne sont pas les mêmes. Mais à quel point sont-elles différentes ? Les moyennes sont-elles suffisamment proches pour que l'on puisse en conclure que la masse grasse corporelle moyenne est la même pour l'ensemble de la population des hommes et des femmes qui fréquentent la salle de sport ? Ou bien les moyennes sont-elles trop différentes pour que nous puissions tirer cette conclusion ?

Nous expliquerons plus en détail les principes qui sous-tendent le test de Student à deux échantillons dans la section des détails statistiques ci-dessous, mais suivons d'abord les étapes du début à la fin. Commençons par calculer notre statistique de test. Pour ce faire, il faut d'abord trouver la différence entre les deux moyennes :

$ 22,29 - 14,95 = 7,34 $

Cette différence dans nos échantillons est une estimation de la différence entre les moyennes de population des deux groupes.

Ensuite, calculons l'écart-type groupé pour obtenir une estimation combinée de l'écart-type global. L'estimation varie en fonction de la taille des groupes. Tout d'abord, calculons la variance groupée :

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

$ s_p^2 = \frac{((10 - 1)5,32^2) + ((13 - 1)6,84^2)}{(10 + 13 - 2)} $

$ = \frac{(9\times28,30) + (12\times46,82)}{21} $

$ = \frac{(254,7 + 561,85)}{21} $

$ =\frac{816,55}{21} = 38,88 $

 

Ensuite, prenons la racine carrée de la variance groupée pour obtenir l'écart-type groupé, comme ceci :

$ \sqrt{38,88} = 6,24 $

Nous avons désormais tout ce qu'il faut pour calculer notre statistique de test. Nous disposons de la différence des moyennes, l'écart-type groupé et les tailles des échantillons. Nous calculons notre statistique de test de la manière suivante :

$ t = \frac{\text{différence des moyennes des groupes}}{\text{erreur standard de la différence}} = \frac{7,34}{(6,24\times \sqrt{(1/10 + 1/13)})} = \frac{7,34}{2,62} = 2,80 $

Pour évaluer la différence entre des moyennes afin de prendre une décision concernant les programmes de sport, nous comparons la statistique de test à une valeur théorique de la distribution t. Cette activité comprend quatre étapes :

  1. Nous déterminons le risque que nous souhaitons prendre en déclarant une différence là où il n'y en a pas. Pour les données de masses grasses, nous déterminons que nous sommes prêts à prendre un risque de 5 % en déclarant que les moyennes de population inconnue pour les hommes et les femmes ne sont pas égales, alors qu'elles le sont en réalité. Statistiquement parlant, nous définissons le seuil de significativité, dénoté par α, à 0,05. Il est de bonne pratique de prendre cette décision avant de collecter les données et avant de calculer les statistiques de test.
  2. Nous calculons une statistique de test. Notre statistique de test est 2,80.
  3. Nous trouvons la valeur à partir de la distribution t en fonction de notre hypothèse nulle, qui établit que les moyennes pour les hommes et les femmes sont égales. La plupart des livres de statistiques disposent de tableaux de référence pour la distribution t. Vous pouvez aussi trouver des tableaux en ligne. Selon toute probabilité vous allez utiliser un logiciel pour votre analyse et n'utiliserez pas des tableaux imprimés.

    Pour trouver cette valeur, nous avons besoin du seuil de significativité (α = 0,05) et de degrés de liberté. Les degrés de liberté (df) sont basés sur la taille de l'échantillon. À partir des données de masses grasses, il s'agit de :

    $ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

    La valeur t avec α = 0,05 et 21 degrés de liberté est 2,080.
  4. Nous comparons la valeur de notre statistique (2,80) à la valeur t. Puisque 2,80 > 2,080, nous rejetons l'hypothèse nulle selon laquelle la masse grasse moyenne des hommes est égale à celle des femmes, et nous en concluons que nous avons la preuve que la masse grasse de la population est différente chez les hommes et les femmes.

Informations statistiques

Examinons les données relatives à la masse grasse et le test de Student à deux échantillons en utilisant les termes statistiques.

Notre hypothèse nulle est que les moyennes de la population sous-jacente sont les mêmes. L'hypothèse nulle est exprimée de la manière suivante :

$ H_o:  \mathrm{\mu_1} =\mathrm{\mu_2} $

L'hypothèse alternative est que les moyennes ne sont pas égales. Ceci est exprimé de la manière suivante :

$ H_o:  \mathrm{\mu_1} \neq \mathrm{\mu_2} $

Nous calculons la moyenne pour chaque groupe puis nous calculons la différence entre les deux moyennes. Ceci est exprimé de la manière suivante :

$\overline{x_1} -  \overline{x_2} $

Nous calculons l'écart-type groupé. Cela suppose que les variances de populations sous-jacentes sont égales. La formule de la variance groupée est exprimée sous la forme suivante :

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

La formule montre la taille de l'échantillon pour le premier groupe comme n1 et pour le deuxième groupe comme n2. Les écarts-types pour les deux groupes sont s1 et s2. Cette estimation permet aux deux groupes d'avoir différents nombres d'observations. L'écart-type groupé est la racine carrée de la variance et il est exprimé sous la forme sp.

Qu'advient-t-il si vos tailles d'échantillons pour les deux groupes sont les mêmes ? Dans cette situation, l'estimation groupée de la variance est simplement la moyenne des variances pour les deux groupes :

$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $

La statistique de test est calculée de la manière suivante :

$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $

Le numérateur du test statistique est la différence entre les moyennes des deux groupes. Il s'agit d'une estimation de la différence entre les deux moyennes de population inconnues. Le dénominateur est une estimation de l'erreur standard de la différence entre les deux moyennes de population inconnues.

Détail technique : Pour une seule moyenne, l'erreur standard est de $ s/\sqrt{n} $. La formule ci-dessus étend cette idée à deux groupes qui utilisent une estimation groupée pour s (écart-type) et qui peuvent avoir des tailles différentes.

Nous comparons ensuite la statistique de test à une valeur t avec notre valeur alpha choisie et les degrés de liberté pour nos données. En utilisant les données de masse grasse comme exemple, nous définissons α = 0,05. Les degrés de liberté (df) sont basés sur les tailles de groupes et calculés de la manière suivante :

$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

La formule montre la taille d'échantillon pour le premier groupe comme n1 et pour le deuxième groupe comme n2. Les statisticiens écrivent la valeur t avec α = 0,05 et 30 degrés de liberté sous la forme :

$ t_{0.05,15} $

La valeur t avec α = 0,05 et 21 degrés de liberté est de 2,131. Il y a deux résultats possibles à partir de notre comparaison :

  • La statistique de test est inférieure à la valeur t. Vous échouez à rejeter l'hypothèse des moyennes égales. Vous en tirez la conclusion que les données corroborent la supposition que les hommes et les femmes ont la même masse grasse moyenne.
  • La statistique de test est supérieure à la valeur t. Vous rejetez l'hypothèse des moyennes égales. Vous n'en concluez pas que les hommes et les femmes ont la même masse grasse moyenne.

Test de Student avec variances inégales

Lorsque les variances des deux groupes ne sont pas égales, nous ne pouvons utiliser l'estimation groupée de l'écart-type. Au lieu de cela, nous prenons l'erreur standard pour chaque groupe séparément. La statistique de test est :

$ t = \frac{ (\overline{x_1} -  \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $

Le numérateur de la statistique de test est le même. Il s'agit de la différence entre les moyennes des deux groupes. Le dénominateur est une estimation de l'erreur standard globale de la différence entre les moyennes. Il est basé sur l'erreur standard séparée pour chaque groupe.

Le calcul des degrés de liberté pour la valeur t est plus complexe avec des variances inégales qu'avec des variances égales. Il est généralement effectué par des progiciels statistiques. Le point principal à retenir est que si vous ne pouvez utiliser l'estimation groupée de l'écart-type, alors vous ne pouvez utiliser la formule simple pour les degrés de liberté.

Tester la normalité

L'hypothèse de normalité est plus importante lorsque les deux groupes ont des tailles d'échantillon petites que lorsque les tailles d'échantillon sont plus grandes.

Les distributions normales sont symétriques ce qui signifie qu'elles sont identiques des deux côtés du centre. Les distributions normales n'ont ni valeurs extrêmes, ni valeurs aberrantes. Vous pouvez vérifier ces deux caractéristiques d'une distribution normale avec des graphiques. Plus tôt, nous avons décidé que les données de masse grasse étaient « suffisamment proches » de la normale pour maintenir l'hypothèse de normalité. La figure ci-dessous montre un graphique de quantiles normaux pour les données et conforte notre décision.

Figure 2 : Graphique des quantiles normaux des mesures de la masse grasse corporelle pour les hommes et les femmes

Vous pouvez également effectuer un test formel de normalité en utilisant un logiciel. La figure ci-dessus montre les résultats du test de normalité avec le logiciel JMP. Nous testons chaque groupe séparément. Le test pour les hommes et le test pour les femmes montrent que nous ne pouvons pas rejeter l'hypothèse d'une distribution normale. Nous pouvons donc supposer que les données sur la masse grasse corporelle des hommes et des femmes sont distribuées normalement.

Tester des variances inégales

Tester des variances inégales est complexe. Nous ne montrerons pas les calculs en détail mais nous montrerons les résultats du logiciel JMP. La figure ci-dessous montre les résultats d'un test pour des variances inégales pour les données de masse grasse.

Figure 3 : Test pour les variances inégales des données relatives à la masse grasse corporelle

Sans entrer dans les détails des différents types de tests pour les variances inégales, nous utiliserons le test F. Avant de procéder au test, nous décidons d'accepter un risque de 10 % de conclure que les variances sont égales alors qu'elles ne le sont pas. Cela signifie que nous avons défini α = 0,10.

Comme la plupart des logiciels statistiques, JMP indique la p-value d'un test. Il s'agit de la probabilité de trouver une valeur plus extrême pour le test statistique que celle observée. Il est difficile de la calculer manuellement. Pour la figure ci-dessus, si le test statistique F est de 1,654, alors la p-value est de 0,4561. Cette valeur est supérieure à notre valeur α : 0,4561 > 0,10. Nous ne parvenons pas à rejeter l'hypothèse des variances égales. En pratique, nous pouvons procéder au test de Student à deux échantillons en supposant des variances égales pour les deux groupes.

Comprendre les p-values

En utilisant un visuel, vous pouvez vérifier si votre statistique de test est une valeur plus extrême dans la distribution. La figure ci-dessous montre une distribution t avec 21 degrés de liberté.

Figure 4 : Distribution t avec 21 degrés de liberté et α = 0,05

Comme notre test est bilatéral et que nous avons défini α = 0,05, la figure montre que la valeur de 2,080 « coupe » 2,5 % des données dans chacune des deux extrémités. Par conséquent, seulement 5 % des données globales se trouvent au-delà de 2,080 dans les extrémités. Comme notre test statistique de 2,80 est au-delà du seuil, nous rejetons l'hypothèse nulle d'égalité des moyennes.

Tout assembler avec un logiciel

La figure ci-dessous montre les résultats du test de Student à deux échantillons des données relatives à la masse grasse corporelle issus du logiciel JMP.

Figure 5 : Résultats de la comparaison des moyennes issus du logiciel JMP

Les résultats du test de Student à deux échantillons qui suppose des variances égales sont les mêmes que nos calculs précédents. La statistique de test est 2,79996. Le logiciel montre des résultats pour un test bilatéral et pour des tests unilatéraux. Nous souhaitons le test bilatéral (Prob > |t|). Notre hypothèse nulle est que la masse grasse moyenne des hommes est égale à celle des femmes. Notre hypothèse alternative est que les masses grasses moyennes ne sont pas égales. Les tests unilatéraux sont pour les hypothèse alternatives unilatérales – par exemple, pour une hypothèse nulle selon laquelle la masse grasse moyenne des hommes est inférieure à celle des femmes.

Nous pouvons rejeter l'hypothèse des masses grasses moyennes égales pour les deux groupes et en conclure que nous avons la preuve que la masse grasse diffère entre les hommes et les femmes. Le logiciel montre une p-value de 0,0107. Nous avons décidé de prendre un risque de 5 % de conclure que les valeurs moyennes des masses grasses des hommes et des femmes étaient différentes, alors qu'elles ne le sont pas. Il est important de prendre cette décision avant d'effectuer le test statistique.

La figure montre également les résultats pour le test de Student qui ne suppose pas de variances égales. Ce test n'utilise pas une estimation groupée de l'écart-type. Comme mentionné ci-dessus, ce test a également une formule complexe pour les degrés de liberté. Vous pouvez observer que les degrés de liberté sont 20,9888. Le logiciel montre une p-value de 0,0086. Encore une fois, avec notre décision d'un risque de 5 %, nous pouvons rejeter l'hypothèse nulle de valeurs moyennes de masses grasses égales pour les hommes et pour les femmes.

Autres rubriques

Que faire si j'ai plus de deux groupes ?

Si vous disposez de plus de deux groupes indépendants, vous ne pouvez pas utiliser le test de Student à deux échantillons. Vous devriez utiliser une méthode de comparaisons multiples. L'analyse de la variance (ANOVA) fait partie de ces méthodes. D'autres méthodes de comparaison multiples comprennent le test de Tukey-Kramer de toutes les différences par paire, l'analyse des moyennes (ANOM) pour comparer les moyennes des groupes à la moyenne globale ou le test de Dunnett pour comparer chaque moyenne de groupe à une moyenne de contrôle.

Qu'en est-il si mes données ne sont pas issues de distributions normales ?

Si la taille de votre échantillon est très petite, sa normalité peut s'avérer difficile à tester. Dans cette situation, vous pourriez avoir besoin de vous fier à votre propre compréhension des mesures. Par exemple, pour les données sur la masse grasse, l'entraîneur sait que la distribution sous-jacente de masse grasse est normale. Même pour un très petit échantillon, l'entraîneur continuera vraisemblablement avec le test de Student et supposera la normalité.

Que se passerait-il si vous saviez que les mesures sous-jacentes ne sont pas distribuées normalement ? Ou si la taille de votre échantillon est grande et que le test de normalité est rejeté ? Dans cette situation, vous pouvez utiliser des analyses non paramétriques. Ces types d'analyses ne dépendent pas de l'hypothèse selon laquelle les valeurs des données sont issues d'une distribution spécifique. Equivalent au le test de Student à deux échantillons, le test de la somme des rangs de Wilcoxon est un test non paramétrique qui pourrait être utilisé.