Analyser les relations

Il est tentant de penser que les sociétés avec un grand nombre d’employés génèrent un plus gros chiffre d'affaires que les sociétés à effectif réduit. Un analyste souhaite prévoir le chiffre d'affaires de chaque société en se basant sur le nombre d’employés.

Cet exemple s'appuie sur la table de données Companies.jmp, qui contient des données financières sur 32 sociétés des industries pharmaceutique et informatique.

Pour exécuter cette tâche, procédez comme suit :

•	Découvrir la relation

•	Ajuster le modèle de régression

•	Prévoir les ventes moyennes

Ce nuage de points donne une image plus claire de la relation entre les ventes et le nombre d’employés. Comme on pouvait s’y attendre, plus une société a d’employés, plus elle génère de chiffre d'affaires. Cela confirme visuellement l'hypothèse de l’analyste, sans donner d'indication précise sur le chiffre d'affaires pour un nombre donné d'employés.

Tout d’abord, créez un nuage de points pour visualiser la relation entre le nombre d’employés et le chiffre d'affaires. Ce nuage de points a été créé au paragraphe “Create the Scatterplot” on page 102 in the “Visualize Your Data” chapter. La Figure 5.12 Nuage de points de Sales ($M) par rapport à # Employ illustre les résultats obtenus après masquage et exclusion d'une valeur aberrante (une société avec un effectif et un chiffre d'affaires très importants).

Figure 5.12 Nuage de points de Sales ($M) par rapport à # Employ

Ajuster le modèle de régression

Pour prévoir un chiffre d'affaires d'après un nombre d’employés, vous devez ajuster un modèle de régression. Cliquez sur le triangle rouge Ajustement bivarié et sélectionnez Régression simple. Une droite de régression est ajoutée dans le nuage de points et des rapports sont ajoutés dans la fenêtre de rapport.

Figure 5.13 Droite de régression

Dans les rapports, observez les résultats suivants :

•	la p-value <0.0001

•	La valeur R carré de 0,618

D’après ces résultats, l’analyste peut tirer les conclusions suivantes :

•

La p-value du terme du modèle #Employ est petite. Cela permet d'établir qu'au niveau de significativité de 0,05 le coefficient est différent de zéro pour #Employ. Par conséquent, en incluant le nombre d’employés dans le modèle de prévision, il est possible d'augmenter de façon significative la capacité de prévision du chiffre d'affaires moyen en comparaison avec un modèle n'incluant pas le nombre d'employés.

•

La valeur R carré de 0,618 indique que ce modèle explique environ 62 % de la variabilité du chiffre d'affaires. La valeur R carré est le coefficient de détermination et indique la proportion la variance dans la variable dépendante (réponse) qui est expliquée par votre modèle. R carré est compris entre 0 et 1. Un modèle avec un R carré de 0 n'a pas de pouvoir explicatif. Un modèle avec un R carré de 1 prévoit parfaitement la réponse.

Prévoir les ventes moyennes

Utilisez le modèle de régression pour prévoir le chiffre d'affaires moyen d'une société en fonction de son nombre d’employés. L’équation de prévision du modèle est incluse dans le rapport :

Chiffre d'affaires moyen = 1059,68 + 0,092*employés

Par exemple, dans une entreprise comptant 70 000 employés, il est prévu que le chiffre d'affaires soit d'environ 7 500 $ :

7 499,68 $ = 1 059,68 + 0,092*70 000

En bas à droite du nuage de points, une valeur aberrante ne suit pas le modèle général des autres sociétés. L’analyste aimerait savoir si le modèle de prévision change lorsque cette valeur aberrante est exclue.

Exclure la valeur aberrante

1.	Cliquez sur la valeur aberrante.

2.	Choisissez Lignes > Exclure/Annuler l’exclusion.

3.	Pour ajuster ce modèle, cliquez sur le triangle rouge en regard d'Ajustement bivarié de Sales ($M) par # Employ et sélectionnez Régression simple.

Voici ce qui est ajouté dans la fenêtre de rapport (Figure 5.14 Comparer les modèles) :

•	Une nouvelle droite de régression

•	Un nouveau rapport Régression simple comprenant :

–	Une nouvelle équation de prévision

–	Une nouvelle valeur R carré

Figure 5.14 Comparer les modèles

Interpréter les résultats

Les résultats de la Figure 5.14 Comparer les modèles permettent à l’analyste de tirer les conclusions suivantes :

•	La valeur aberrante faisait baisser la droite de régression des plus grandes sociétés et faisait monter la droite des plus petites.

•	Le nouveau modèle, excluant la valeur aberrante, est plus fiable que le précédent. La nouvelle valeur R carré de 0,88 est plus élevée et plus proche de 1.

La nouvelle équation de prévision permet de calculer le chiffre d'affaires prévisionnel moyen d’une société de 70 000 employés comme suit :

8 961,37 $ = 631,37 + 0,119*70 000

La prévision établie à partir du premier modèle était d'environ 7 500 $. Le second modèle prévoit un chiffre d'affaires total d'environ 8 960 $, soit 1 460 $ de plus qu'avec le premier modèle.

Par rapport au premier modèle et après suppression de la valeur aberrante, le second modèle décrit et prévoit mieux le chiffre d'affaires total en fonction du nombre d’employés. L’analyste dispose désormais d'un modèle efficace.

Comparer les moyennes d'une variable

Si vous avez une variable Y continue et une variable X catégorielle, vous pouvez comparer les moyennes des différents niveaux de la variable X.

Un analyste financier souhaite étudier la question suivante :

Cet exemple s'appuie sur la table de données Companies.jmp, qui contient des données financières sur 32 sociétés des industries pharmaceutique et informatique.

•	Quels sont les bénéfices des sociétés informatiques par rapport à ceux des sociétés pharmaceutiques ?

Pour répondre à cette question, ajustez Profits ($M) en fonction de Type.

Une valeur aberrante se détache pour le type Informatique. La valeur aberrante réduit l’échelle du graphique et complique de ce fait la comparaison des bénéfices. Excluez et masquez cette valeur aberrante :

1.	Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Companies.jmp.

2.	Si la table d’échantillons de données Companies.jmp est toujours ouverte, il est possible que des lignes soient exclues ou masquées. Pour réinitialiser l'état de ces lignes — c'est-à-dire pour les inclure et les afficher toutes — choisissez Lignes > Effacer les états de ligne.

3.	Sélectionnez Analyse > Ajuster Y en fonction de X.

4.	Sélectionnez Profits ($M) et cliquez sur Y, Réponse.

5.	Sélectionnez Type et cliquez sur X, Facteur.

6.	Cliquez sur OK.

Figure 5.15 Bénéfices par type de société

1.	Cliquez sur la valeur aberrante.

2.	Choisissez Lignes > Exclure/Annuler l’exclusion. Le point n’est plus inclus dans les calculs.

3.	Choisissez Lignes > Masquer/Afficher. Le point est masqué sur tous les graphiques.

4.	Pour recréer le graphique sans la valeur aberrante, cliquez sur ANOVA à un facteur de Profits ($M) en fonction de Type et sélectionnez Refaire > Refaire l'analyse. Vous pouvez fermer la fenêtre Nuage de points initiale.

Figure 5.16 Graphique mis à jour

La suppression de la valeur aberrante permet à l’analyste financier d’avoir une image plus claire des données.

5.	Pour poursuivre l'analyse de la relation, sélectionnez les options suivantes dans le triangle rouge situé en regard d’ANOVA à un facteur de Profits ($M) en fonction de Type :

–	Options d’affichage > Droites des moyennes. (Pour ajouter les droites des moyennes dans le nuage de points.)

–	Moyennes et écarts-types. (Pour afficher un rapport sur les moyennes et les écarts-types.)

Figure 5.17 Droites des moyennes et rapport

Interpréter les résultats

L’analyste financier souhaite savoir quels sont les bénéfices des sociétés informatiques par rapport à ceux des sociétés pharmaceutiques. Le nuage de points mis à jour montre que les sociétés pharmaceutiques enregistrent des bénéfices moyens supérieurs à ceux des sociétés informatiques. Dans le rapport, la différence entre les deux moyennes est d'environ 635 millions de dollars. Le graphique indique également que certaines sociétés informatiques enregistrent des bénéfices négatifs et que toutes les sociétés pharmaceutiques réalisent des bénéfices positifs.

Réaliser le test de Student

L’analyste financier n’a examiné qu’un seul échantillon de sociétés (celles de la table de données). Il souhaite à présent étudier les questions suivantes :

•	Existe-t-il également une différence au sein de la population générale, ou la différence de 635 millions de dollars relève-t-elle du hasard ?

•	Si différence il y a, quelle est-elle ?

Pour répondre à ces questions, effectuez un test de Student sur deux échantillons. Un test de Student vous permet d'utiliser les données d'un échantillon pour tirer des conclusions sur une population plus vaste (dite « générale » ici).

Pour réaliser le test de Student, cliquez sur le triangle rouge ANOVA à un facteur et sélectionnez Moyennes/ANOVA/t groupé.

Figure 5.18 Résultats du test de Student

La p-value 0,0001 est inférieure au niveau de significativité de 0,05, ce qui indique la significativité statistique. Par conséquent, l’analyste financier peut conclure que la différence entre les bénéfices moyens de l'échantillon de données n'est pas due au hasard. Au sein de la population générale, les bénéfices moyens des sociétés pharmaceutiques sont bien différents de ceux des sociétés informatiques.

Utilisez les limites de l’intervalle de confiance pour définir précisément la différence de bénéfices entre les deux types de société. Examinez les valeurs Limite de confiance supérieure (95 %) de la différence et Limite de confiance inférieure (95 %) de la différence de la Figure 5.18 Résultats du test de Student. L'analyste financier conclut que le bénéfice moyen des laboratoires pharmaceutiques est supérieur de 343 à 926 millions de dollars à celui des sociétés informatiques.

Comparer les proportions

Si les variables X et Y sont catégorielles, vous pouvez comparer les proportions des niveaux de la variable Y avec celles des niveaux de la variable X.

L’analyste financier souhaite savoir si l'influence de la taille des sociétés sur les bénéfices est plus marquée pour un type que pour l'autre. Cependant, avant d’étudier cette question, il doit savoir si les proportions de petites, moyennes et grandes sociétés sont les mêmes dans les deux industries.

Cet exemple utilise également la table de données Companies.jmp. Au paragraphe Comparer les moyennes d'une variable, l'analyste financier a pu établir que les laboratoires pharmaceutiques affichaient, en moyenne, des bénéfices supérieurs à ceux des sociétés informatiques.

Interpréter les résultats

1.	Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Companies.jmp.

2.	Si la table d’échantillons de données Companies.jmp est toujours ouverte, il est possible que des lignes soient exclues ou masquées. Pour réinitialiser l'état de ces lignes — c'est-à-dire pour les inclure et les afficher toutes — choisissez Lignes > Effacer les états de ligne.

3.	Sélectionnez Analyse > Ajuster Y en fonction de X.

4.	Sélectionnez Size Co et cliquez sur Y, Réponse.

5.	Sélectionnez Type et cliquez sur X, Facteur.

6.	Cliquez sur OK.

Figure 5.19 Taille des sociétés en fonction de leur type

Le tableau de contingence contient des informations qui ne s'appliquent pas à cet exemple. Cliquez sur le triangle rouge Tableau de contingence et désélectionnez % du total et % de colonnes pour retirer ces informations. La Figure 5.20 Tableau de contingence mis à jour affiche le tableau actualisé.

Figure 5.20 Tableau de contingence mis à jour

Les statistiques du tableau de contingence sont représentées dans le graphique en mosaïque. Le graphique en mosaïque et le tableau de contingence comparent les pourcentages de petites, moyennes et grandes sociétés entre les deux industries. Par exemple, le graphique en mosaïque indique que l’industrie informatique compte de plus de petites sociétés que l’industrie pharmaceutique. Le tableau de contingence fournit les statistiques exactes : 70 % des sociétés informatiques sont de petite taille, contre 17 % environ pour les laboratoires pharmaceutiques.

Interpréter le test

L’analyste financier n’a examiné qu’un seul échantillon de sociétés (celles de la table de données). Il souhaite savoir si les pourcentages diffèrent au sein de la population générale des sociétés informatiques et pharmaceutiques.

Pour répondre à cette question, utilisez la p-value du test de Pearson disponible dans le rapport Tests (Taille des sociétés en fonction de leur type). Puisque la p-value 0,011 est inférieure au niveau de significativité de 0,05, l’analyste financier conclut que :

•	Les différences observées au sein de l’échantillon de données ne sont pas le fruit du hasard

•	Les pourcentages diffèrent au sein de la population générale

L’analyste financier sait désormais que les proportions des petites, moyennes et grandes sociétés sont différentes, et peut répondre à la question suivante : L'influence de la taille des sociétés sur les bénéfices est-elle plus marquée pour un type que pour l'autre ?

Comparer les moyennes de variables multiples

Le paragraphe Comparer les moyennes d'une variable a permis de comparer les moyennes entre les différents niveaux d’une variable catégorielle. Pour comparer les moyennes entre les niveaux de deux variables ou plus, utilisez l’analyse de la variance (ou ANOVA).

L'analyste financier peut répondre à la question évoquée au paragraphe Comparer les proportions, à savoir : L'influence de la taille des sociétés sur les bénéfices est-elle plus marquée pour un type que pour l'autre ?

Pour répondre à cette question, comparez les bénéfices des sociétés en fonction de ces deux variables :

•	Type (pharmaceutique ou informatique)

•	Taille (petite, moyenne, grande)

Pour visualiser les différences de bénéfices de l’ensemble des combinaisons de type et de taille, utilisez un graphique :

1.	Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Companies.jmp.

2.	Choisissez Graphique > Constructeur de graphiques. La fenêtre Constructeur de graphiques apparaît.

3.	Faites glisser Profits ($M) dans la zone Y.

4.	Faites glisser Size Co dans la zone X.

5.	Faites glisser Type dans la zone Grouper X.

Figure 5.21 Graphique des bénéfices des sociétés

Le graphique indique qu’une grande société informatique réalise des bénéfices très importants. La valeur aberrante réduit l’échelle du graphique et complique de ce fait la comparaison des bénéfices.

6.	Sélectionnez la valeur aberrante, puis cliquez avec le bouton droit et sélectionnez Lignes > Exclusion de lignes. Le point est supprimé et l’échelle du graphique est automatiquement modifiée.

7.	Cliquez sur l'icône Barre . Il est plus facile de comparer des bénéfices moyens à l'aide de barres qu'à l'aide de points.

Figure 5.22 Graphique sans la valeur aberrante

Le graphique mis à jour indique que les bénéfices moyens des sociétés pharmaceutiques sont supérieurs. Il montre également que les bénéfices diffèrent d'une taille de société à l'autre, mais uniquement dans l'industrie pharmaceutique. Lorsque l’effet d’une variable (taille) change selon les niveaux d’une autre variable (type), on parle d'interaction.

Quantifier la relation

Ces données ne provenant que d’un échantillon, l’analyste financier souhaite savoir :

•	Si les différences se limitent à cet échantillon et si elles sont dues au hasard

•	Si les mêmes tendances existent au sein de la population générale

1.	Retournez dans la table d’échantillons de données Companies.jmp dont un point est exclu. Voir Découvrir la relation.

2.	Choisissez Analyse > Modèle linéaire.

3.	Sélectionnez Profits ($M) et cliquez sur Y.

4.	Sélectionnez les colonnes Type et Size Co.

5.	Cliquez sur le bouton Modèles préétablis et sélectionnez Factoriel complet.

6.	Dans le menu Choix du rapport, choisissez Criblage.

7.	Sélectionnez l’option Maintenir la fenêtre de dialogue ouverte.

Figure 5.23 Fenêtre Modèle linéaire renseignée

8.	Cliquez sur Exécuter. La fenêtre de rapport affiche les résultats du modèle.

Pour savoir si les différences de bénéfices sont réelles ou le fruit du hasard, consultez le rapport Tests des effets.

Remarque : Pour plus d'informations sur tous les résultats du Modèle linéaire, voir le chapitre Model Specification dans Fitting Linear Models.

Voir les tests des effets

Le rapport Tests des effets (Figure 5.24 Rapport Tests des effets) fournit les résultats des tests statistiques. Un test a été effectué pour chaque effet du modèle de la fenêtre Modèle linéaire : Type, Size Co et Type*Size Co.

Figure 5.24 Rapport Tests des effets

Tout d’abord, examinez le test d'interaction du modèle : l'effet Type*Size Co. La Figure 5.22 Graphique sans la valeur aberrante indiquait que les laboratoires pharmaceutiques semblaient afficher des bénéfices différents selon leur taille. Cependant, le test des effets signale qu’il n’existe aucune interaction entre le type et la taille pour ce qui est des bénéfices. La p-value 0,218 est élevée (supérieure au niveau de significativité de 0,05). Par conséquent, supprimez cet effet et réexécutez le modèle.

1.	Revenez dans la fenêtre Modèle linéaire.

2.	Sous Choisir les effets du modèle, sélectionnez l’effet Type*Size Co et cliquez sur Supprimer.

3.	Cliquez sur Exécuter.

Figure 5.25 Rapport Tests des effets mis à jour

La p-value de l’effet Size Co est élevée, ce qui signifie qu'il n'existe aucune différence basée sur la taille au sein de la population générale. La p-value de l’effet Type est petite, ce qui signifie que les différences observées dans les données entre les sociétés informatiques et pharmaceutiques ne sont pas le fait du hasard.

L'analyste financier souhaitait savoir si l'influence de la taille des sociétés était plus marquée dans une industrie que dans l'autre (pharmaceutique ou informatique). Il peut désormais répondre à cette question :

•	Il existe un réel écart entre les sociétés informatiques et pharmaceutiques dans la population générale s'agissant des bénéfices.

•	Il n’existe pas de corrélation entre la taille et le type de la société d'une part et ses bénéfices d'autre part.

Utiliser la régression avec des régresseurs multiples

Dans le paragraphe Utiliser la régression avec un régresseur, vous avez appris à créer des modèles de régression simples, composés d’une variable de régression et d’une variable de réponse. La régression multiple permet de prévoir la variable de réponse moyenne à l’aide de deux variables de régression ou plus.

Un diététicien souhaite prévoir le nombre de calories à l’aide des informations suivantes :

Cet exemple s'appuie sur la table de données Candy Bars.jmp, qui contient les informations nutritionnelles de barres chocolatées.

•	Total fat (lipides totaux)

•

Glucides

•

Protéines

Utilisez la régression multiple pour prévoir la variable de réponse moyenne à l’aide de ces trois variables de régression.

Pour visualiser la relation entre les calories d'une part et les lipides totaux, les glucides et les protéines d'autre part, créez une matrice de nuages de points :

1.	Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Candy Bars.jmp.

2.	Choisissez Graphique > Matrice de graphiques de nuages de points.

3.	Sélectionnez Calories et cliquez sur Y, Colonnes.

4.	Sélectionnez Total fat g, Carbohydrate g et Protein g, puis cliquez sur X.

5.	Cliquez sur OK.

Figure 5.26 Résultats de la matrice de nuages de points

La matrice indique qu’il existe une corrélation positive entre les calories et les trois variables, la plus marquée étant celle entre les calories et les lipides totaux. Fort de ces informations, le diététicien peut créer un modèle de régression multiple afin de prévoir le nombre moyen de calories.

Créer le modèle de régression multiple

La procédure ci-après est également basée sur la table de données Candy Bars.jmp.

1.	Choisissez Analyse > Modèle linéaire.

2.	Sélectionnez Calories et cliquez sur Y.

3.	Sélectionnez Total Fat g, Carbohydrate g, et Protein g, puis cliquez sur Ajouter.

4.	Dans le menu Choix du rapport, sélectionnez Criblage de l’effet.

Figure 5.27 Fenêtre Modèle linéaire

5.	Cliquez sur Exécuter.

La fenêtre de rapport affiche les résultats du modèle. Pour interpréter les résultats du modèle, focalisez-vous sur ces trois aspects :

•	Afficher le graphique des valeurs observées en fonction des valeurs prévues

•	Interpréter les estimations de paramètres

•	Utiliser le profileur de prévision

Remarque : Pour plus d'informations sur tous les résultats du modèle, voir le chapitre Model Specification dans Fitting Linear Models.

Afficher le graphique des valeurs observées en fonction des valeurs prévues

Le graphique des valeurs observées en fonction des valeurs prévues affiche les calories réelles par rapport aux calories prévues. Comme les valeurs prévues sont proches des valeurs observées, les points du nuage tombent à proximité de la droite rouge (Figure 5.28 Graphique des valeurs observées en fonction des valeurs prévues). Les points étant tous très proches de la droite, vous pouvez en conclure que le modèle prévoit correctement les calories en fonction des facteurs choisis.

Figure 5.28 Graphique des valeurs observées en fonction des valeurs prévues

Vous pouvez également mesurer la précision du modèle par la valeur R carré (située sous le graphique dans la Figure 5.28 Graphique des valeurs observées en fonction des valeurs prévues). Elle mesure le pourcentage de variabilité des calories, comme expliqué par le modèle. Une valeur proche de 1 signifie que la prévision du modèle est correcte. Dans cet exemple, la valeur de R carré est de 0,99.

Interpréter les estimations de paramètres

Le rapport Estimation des paramètres fournit les informations suivantes :

•	Les coefficients du modèle

•	La p-value de chaque paramètre

Figure 5.29 Rapport Estimation des paramètres

Dans cet exemple, les p-values sont toutes très petites (>0.0001). Cela indique que les trois effets (lipides, glucides et protéines) contribuent significativement à la prévision des calories.

Vous pouvez utiliser les coefficients du modèle pour prévoir la valeur des calories pour des valeurs de lipides, glucides et protéines données. Supposons que vous souhaitiez prévoir le nombre moyen de calories des barres chocolatées présentant les caractéristiques suivantes :

•	Lipides = 11 g

•	Glucides = 43 g

•	Protéines = 2 g

À l’aide de ces valeurs, vous pouvez calculer le nombre moyen de calories prévu :

277,92 = -5,9643 + 8,99*11 + 4,0975*43 + 4,4013*2

Les caractéristiques de cet exemple sont les mêmes que celles de la barre Milky Way (ligne 59 de la table de données). Les calories réelles de la barre Milky Way s'élèvent à 280, ce qui confirme les prévisions du modèle.

Utiliser le profileur de prévision

Utilisez le profileur de prévision pour étudier l'impact des modifications apportées aux facteurs sur les valeurs prévues. Les droites du profil montrent la puissance de l'impact des modifications de facteur sur les calories. La droite de Total fat g est la plus inclinée, ce qui signifie que ce sont les modifications apportées aux lipides totaux qui ont le plus d'impact sur les calories.

Figure 5.30 Profileur de prévision

Faites glisser la droite verticale de chaque facteur pour comprendre la manière dont les valeurs prévues changent. Vous pouvez également cliquer sur les valeurs des facteurs et les modifier. Par exemple, cliquez sur les valeurs des facteurs et remplacez-les par les valeurs de la barre Milky Way (ligne 59).

Figure 5.31 Valeurs des facteurs correspondant à la barre Milky Way

Remarque : Pour plus d'informations sur le Profileur de prévision, voir le chapitre Profiler dans Profilers.