Analyser ses données > Analyser les relations > Utiliser la régression avec des régresseurs multiples
Date de parution : 09/30/2021

Utiliser la régression avec des régresseurs multiples

Dans le paragraphe Utiliser la régression avec un régresseur, vous avez appris à créer des modèles de régression simples, composés d’une variable de régression et d’une variable de réponse. La régression multiple permet de prévoir la variable de réponse moyenne à l’aide de deux variables de régression ou plus.

Scénario

Cet exemple s'appuie sur la table de données Candy Bars.jmp, qui contient les informations nutritionnelles de barres chocolatées.

Un diététicien souhaite prévoir le nombre de calories à l’aide des informations suivantes :

Total fat (lipides totaux)

Glucides

Protéines

Utilisez la régression multiple pour prévoir la variable de réponse moyenne à l’aide de ces trois variables de régression.

Découvrir la relation

Pour visualiser la relation entre les calories d'une part et les lipides totaux, les glucides et les protéines d'autre part, créez une matrice de nuages de points :

1. Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Candy Bars.jmp.

2. Choisissez Graphique > Matrice de graphiques de nuages de points.

3. Sélectionnez Calories et cliquez sur Y, Colonnes.

4. Sélectionnez Total fat g, Carbohydrate g et Protein g, puis cliquez sur X.

5. Cliquez sur OK.

Figure 5.26 Résultats de la matrice de nuages de points 

Résultats de la matrice de nuages de points

La matrice indique qu’il existe une corrélation positive entre les calories et les trois variables, la plus marquée étant celle entre les calories et les lipides totaux. Fort de ces informations, le diététicien peut créer un modèle de régression multiple afin de prévoir le nombre moyen de calories.

Créer le modèle de régression multiple

La procédure ci-après est également basée sur la table de données Candy Bars.jmp.

1. Choisissez Analyse > Modèle linéaire.

2. Sélectionnez Calories et cliquez sur Y.

3. Sélectionnez Total Fat g, Carbohydrate g, et Protein g, puis cliquez sur Ajouter.

4. Dans le menu Choix du rapport, sélectionnez Criblage de l’effet.

Figure 5.27 Fenêtre Modèle linéaire 

Fenêtre Modèle linéaire

5. Cliquez sur Exécuter.

La fenêtre de rapport affiche les résultats du modèle. Pour interpréter les résultats du modèle, focalisez-vous sur ces trois aspects :

Afficher le graphique des valeurs observées en fonction des valeurs prévues

Interpréter les estimations de paramètres

Utiliser le profileur de prévision

Remarque : Pour plus d'informations sur tous les résultats du modèle, voir Fitting Linear Models.

Afficher le graphique des valeurs observées en fonction des valeurs prévues

Le graphique des valeurs observées en fonction des valeurs prévues affiche les calories réelles par rapport aux calories prévues. Comme les valeurs prévues sont proches des valeurs observées, les points du nuage tombent à proximité de la droite rouge (Figure 5.28). Les points étant tous très proches de la droite, vous pouvez en conclure que le modèle prévoit correctement les calories en fonction des facteurs choisis.

Figure 5.28 Graphique des valeurs observées en fonction des valeurs prévues 

Graphique des valeurs observées en fonction des valeurs prévues

Vous pouvez également mesurer la précision du modèle par la valeur R carré (située sous le graphique dans la Figure 5.28). Elle mesure le pourcentage de variabilité des calories, comme expliqué par le modèle. Une valeur proche de 1 signifie que la prévision du modèle est correcte. Dans cet exemple, la valeur de R carré est de 0,99.

Interpréter les estimations de paramètres

Le rapport Estimation des paramètres fournit les informations suivantes :

Les coefficients du modèle

La p-value de chaque paramètre

Figure 5.29 Rapport Estimation des paramètres 

Rapport Estimation des paramètres

Dans cet exemple, les p-values sont toutes très petites (>0.0001). Cela indique que les trois effets (lipides, glucides et protéines) contribuent significativement à la prévision des calories.

Vous pouvez utiliser les coefficients du modèle pour prévoir la valeur des calories pour des valeurs de lipides, glucides et protéines données. Supposons que vous souhaitiez prévoir le nombre moyen de calories des barres chocolatées présentant les caractéristiques suivantes :

Lipides = 11 g

Glucides = 43 g

Protéines = 2 g

À l’aide de ces valeurs, vous pouvez calculer le nombre moyen de calories prévu :

277,92 = -5,9643 + 8,99*11 + 4,0975*43 + 4,4013*2

Les caractéristiques de cet exemple sont les mêmes que celles de la barre Milky Way (ligne 59 de la table de données). Les calories réelles de la barre Milky Way s'élèvent à 280, ce qui confirme les prévisions du modèle.

Utiliser le profileur de prévision

Utilisez le profileur de prévision pour étudier l'impact des modifications apportées aux facteurs sur les valeurs prévues. Les droites du profil montrent la puissance de l'impact des modifications de facteur sur les calories. La droite de Total fat g est la plus inclinée, ce qui signifie que ce sont les modifications apportées aux lipides totaux qui ont le plus d'impact sur les calories.

Figure 5.30 Profileur de prévision 

Profileur de prévision

Faites glisser la droite verticale de chaque facteur pour comprendre la manière dont les valeurs prévues changent. Vous pouvez également cliquer sur les valeurs des facteurs et les modifier. Par exemple, cliquez sur les valeurs des facteurs et remplacez-les par les valeurs de la barre Milky Way (ligne 59).

Figure 5.31 Valeurs des facteurs correspondant à la barre Milky Way 

Valeurs des facteurs correspondant à la barre Milky Way

Remarque : Pour plus d'informations sur le profileur de prévision, voir Profilers.

Tirer les conclusions

Le diététicien possède désormais un bon modèle pour prévoir les calories d’une barre chocolatée en fonction des lipides totaux, des glucides et des protéines.

Vous voulez plus d'informations ? Avoir des questions? Obtenez des réponses dans la communauté d'utilisateurs JMP (community.jmp.com).