Explorer les données dans de multiples plates-formes

Quelles céréales rentrent dans le cadre d'une alimentation saine ? L'échantillon de données Cereal.jmp (données réelles obtenues sur les boîtes de céréales populaires) fournit des statistiques sur la teneur en fibres, le nombre de calories, et d'autres informations nutritionnelles. Pour identifier les céréales les plus saines, vous devez suivre différentes étapes consistant à interpréter les histogrammes et les statistiques descriptives, à détecter les corrélations et les valeurs aberrantes, et à réaliser des nuages de points et une classification.

Analyser les distributions

La plate-forme Distribution illustre la distribution d'une seule variable (analyse univariée) à l'aide d'histogrammes, de graphiques supplémentaires et de rapports. Le mot univarié signifie simplement qu'il y a une seule variable, et non deux (bivarié) ou plus encore (multivarié). Vous pouvez cependant examiner la distribution de plusieurs variables individuelles dans un même rapport. Selon que la variable est catégorielle (nominale ou ordinale) ou continue, le contenu du rapport peut varier.

•	Pour les variables catégorielles, le graphique initial est un histogramme. L'histogramme affiche une barre pour chaque niveau de la variable ordinale ou nominale. Les rapports affichent les dénombrements et les proportions.

•

Pour les variables continues, les graphiques initiaux sont constitués d'un histogramme et d'une boîte à moustaches des valeurs aberrantes. L'histogramme affiche une barre pour les valeurs groupées de la variable continue. Les rapports affichent les quantiles sélectionnés et les statistiques de résumé.

Une fois que vous avez connaissance de la distribution de vos données, vous pouvez prévoir le type d'analyse approprié.

Remarque : Pour plus d'informations sur la plate-forme Distribution, voir le chapitre Distributions dans Basic Analysis.

Scénario

Vous souhaitez connaître les valeurs nutritionnelles des céréales afin d'avoir une alimentation plus saine. L'analyse des distributions des données sur les céréales permet de répondre aux questions suivantes :

•	Quelles sont les céréales les plus riches en fibres ?

•	Quel est le nombre moyen, minimum et maximum de calories ?

•	Quelle est la teneur moyenne en lipides ?

•	Quelles céréales ont la teneur en lipides la plus élevée ?

•	Les données contiennent-elles des valeurs aberrantes ?

Créer les distributions

1.	Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Cereal.jmp.

2.	Choisissez Analyse > Distribution.

3.	Appuyez sur Ctrl et cliquez sur Manufacturer, Calories, Fat et Fiber.

4.	Cliquez sur Y, Colonnes puis sur OK.

Figure 6.2 Distributions pour Manufacturer, Calories, Fat et Fiber

Les distributions pour Fiber mettent en évidence ce qui suit :

–	Fiber One et All-Bran with Extra Fiber ont les teneurs en fibres les plus élevées, comme le montre la boîte à moustaches Fiber. Ces céréales sont des valeurs aberrantes en termes de teneur en fibres.

Dans le fichier Cereal.jmp, la ligne contenant Fiber One est étiquetée. Dans les graphiques, cette étiquette permet d'afficher le nom des céréales à côté d'un point de données. Pour voir l'étiquette entière, faites glisser la bordure verticale la plus à droite vers la droite. Placez votre curseur sur le point de données non étiqueté pour voir « All Bran with Extra Fiber ».

Les distributions pour Fat mettent en évidence ce qui suit :

–	Dans la boîte à moustaches Fat, placez votre curseur sur le point de données supérieur (le marqueur x) pour voir que les céréales 100% Nat. Bran Oats & Honey ont la teneur en lipides la plus élevée.

–	Dans le rapport des quantiles Fat, la teneur médiane en lipides est de 1 gramme.

Le rapport des quantiles Calories met en évidence ce qui suit :

–	Le nombre maximum de calories est de 250.

–	Le nombre minimum de calories est de 50.

5.	Dans l'histogramme Manufacturer, cliquez sur la barre de Nabisco.

Figure 6.3 Distributions pour les céréales Nabisco

Les distributions Calories, Fat et Fiber pour les céréales Nabisco sont mises en évidence dans les autres histogrammes. Vous pouvez comparer ces distributions avec les distributions calculées pour les données globales. Par exemple, la distribution Fat calculée pour les céréales Nabisco semble être inférieure à celle calculée pour les données globales.

6.	Cliquez sous la dernière barre Fiber pour désélectionner toutes les barres.

7.	Appuyez sur Maj et, dans l'histogramme Fiber, cliquez sur toutes les barres dont la valeur est supérieure à 8.

Figure 6.4 Céréales riches en fibres

Les céréales les plus riches en fibres sont mises en évidence dans les histogrammes Calories et Fat. La liaison entre les histogrammes permet de voir que certaines céréales riches en fibres sont également pauvres en lipides.

8.	Appuyez sur Ctrl et Maj, puis désélectionnez les deux barres de l'histogramme Calories se trouvant à 200 ou s'en rapprochant.

Les céréales hautement caloriques sont supprimées des histogrammes.

Figure 6.5 Céréales riches en fibres et pauvres en calories

Conseil : Laissez le rapport Distributions ouvert. Il vous sera utile lorsque vous réaliserez la classification. Voir Analyser les valeurs similaires.

Interpréter les résultats

L'étude des résultats vous permet de répondre aux questions suivantes :

Quelles sont les céréales les plus riches en fibres ?

La boîte à moustaches Fiber montre que les céréales All-Bran with Extra Fiber et Fiber One ont la teneur en fibres la plus élevée. Ces deux céréales sont des valeurs aberrantes.

Quel est le nombre moyen, minimum et maximum de calories ?

L'histogramme Calories montre que le nombre de calories va de 50 à 275. Les quantiles Calories montrent que le nombre de calories va de 50 à 250, et que le nombre médian de calories est de 120. La distribution n'est pas uniforme.

Quelle est la teneur moyenne en lipides ?

Le rapport des quantiles Fat montre que la teneur médiane en lipides est de 1 gramme.

Quelles céréales ont la teneur en lipides la plus élevée ?

La boîte à moustaches Fat montre que les céréales 100% Nat. Bran Oats & Honey ont la teneur en lipides la plus élevée. Ces céréales sont une valeur aberrante.

Tirer les conclusions

Pour augmenter votre apport en fibres, vous décidez d'essayer All-Bran with Extra Fiber et Fiber One. Ces céréales sont plus faibles en calories et en lipides. La plupart des céréales n'augmentent pas considérablement votre apport en lipides, mais vous prévoyez d'éviter les céréales 100% Nat. Bran Oats & Honey qui sont riches en lipides. Et, bien que la plupart des céréales soient relativement pauvres en lipides, elles ne sont pas nécessairement pauvres en calories.

Analyser les modèles et les relations

Maintenant que vous avez identifié quelles sont les céréales que vous pouvez manger ou que vous devez éviter, vous souhaitez voir de quelle façon les variables des céréales sont corrélées entre elles. La plate-forme Multivariée vous permet d'observer les modèles et les relations entre les variables. Le rapport d'analyse multivariée vous permet de :

•	résumer la force des relations linéaires entre chaque paire de variables de réponse à l'aide du tableau Corrélations

•	identifier les dépendances, valeurs aberrantes et clusters à l'aide de la matrice de nuages de points

•	utiliser d'autres techniques pour étudier des variables multiples, notamment les corrélations partielles, inverses et par paire, les matrices de covariance et les analyses en composantes principales

Remarque : Pour plus d'informations sur la plate-forme Multivariée, voir le chapitre Correlations and Multivariate Techniques dans Multivariate Methods.

Scénario

Vous souhaitez voir quelles sont les relations entre les variables, et notamment entre les variables lipides et calories. L'analyse des données dans la plate-forme Multivariée permet de répondre aux questions suivantes :

•	Quelles paires de variables sont fortement corrélées ?

•	Quelles paires de variables ne sont pas corrélées ?

Créer le rapport d'analyse multivariée

1.	Dans la table de données Cereal.jmp, cliquez sur le triangle du bas situé en haut du panneau Colonnes pour désélectionner les lignes.

Figure 6.6 Désélectionner des lignes

2.	Sélectionnez Analyse > Méthodes multivariées > Multivarié.

3.	Sélectionnez Calories par Potassium, cliquez sur Y, Colonnes puis sur OK.

Le rapport d'analyse multivariée apparaît. Par défaut, il contient le rapport Corrélations et Matrice de nuages de points. Le rapport Corrélations est une matrice des coefficients de corrélation qui résume la force des relations linéaires entre chaque paire de variables de réponse (Y). Les chiffres sombres indiquent un degré de corrélation plus faible.

Figure 6.7 Rapport Corrélations

Vous remarquerez que :

–	Dans la colonne Calories, le nombre de calories est fortement corrélé avec toutes les variables à l'exception des variables sodium et fibres.

–	Dans la colonne Fiber, les variables fibres et potassium semblent être fortement corrélées.

–	Dans la colonne Sodium, la variable sodium n'est pas fortement corrélée avec les autres variables.

Dans la matrice de nuages de points, les ellipses de densité illustrent encore davantage les relations entre les variables.

Figure 6.8 Portion de la Matrice de nuages de points

Par défaut, chaque nuage de points contient une ellipse de densité normale bivariée à 95 %. En supposant que chaque paire de variables a une distribution normale bivariée, cette ellipse englobe approximativement 95 % des points. Si l'ellipse est plutôt arrondie et n'est pas orientée selon une diagonale, les variables ne sont pas corrélées. Si l'ellipse est allongée et orientée selon une diagonale, les variables sont corrélées.

Vous remarquerez que :

–	Les ellipses sont plutôt arrondies dans la ligne Sodium. Cette forme indique que la variable Sodium n'est pas corrélée avec les autres variables.

–	Les marqueurs x bleus, qui représentent Nat. Bran Oats & Honey, Cracklin’ Oat Bran et Banana Nut Crunch, apparaissent à l'extérieur des ellipses dans la ligne Fat. Ce positionnement indique que les données sont des valeurs aberrantes (du fait de la teneur en lipides des céréales).

Vous étudierez une matrice de nuages de points plus en détails ultérieurement.

4.	Pour afficher le rapport Corrélations par paire, cliquez sur le triangle rouge Multivarié et sélectionnez Corrélations par paire.

Figure 6.9 Portion du rapport Corrélations par paire

Le rapport Corrélations par paire répertorie les corrélations produit-moment de Pearson pour chaque paire de variables Y. Le rapport donne également les p-values et compare les corrélations dans un diagramme en barres.

5.	Pour identifier rapidement les paires fortement corrélées, cliquez avec le bouton droit sur le rapport et sélectionnez la case à cocher Trier par colonne, P-value, Ordre croissant, puis cliquez sur OK.

Les paires les plus fortement corrélées apparaissent en haut du rapport. Pour les paires, les petites p-values sont une preuve de corrélation. La corrélation la plus significative est entre Tot Carbo (glucides totaux) et Calories.

Figure 6.10 Petites p-values pour les paires

Interpréter les résultats

L'étude des résultats vous permet de répondre aux questions suivantes :

Quelles paires de variables sont fortement corrélées ?

Le rapport Corrélations et la Matrice de nuages de points montrent que le nombre de calories est fortement corrélé avec toutes les variables à l'exception des variables sodium et fibres. Le rapport Corrélations par paire montre que la paire de variables Tot Carbo (glucides totaux) et Calories est la plus corrélée.

Quelles paires de variables ne sont pas corrélées ?

Le rapport Corrélations et la Matrice de nuages de points montrent que la variable Sodium n'est pas corrélée avec les autres variables.

Tirer les conclusions

Vous confirmez votre décision d'éviter les céréales 100% Nat. Bran Oats & Honey qui sont riches en lipides. Votre décision d'essayer All-Bran with Extra Fiber et Fiber One était également bonne. Ces deux céréales, riches en fibres, ont également l'avantage d'être plus pauvres en calories, en lipides et en sucres, et d'afficher une teneur en potassium plus élevée. Vous décidez également d'éviter les céréales riches en glucides car elles ont plus de chances d'être riches en calories.

Analyser les valeurs similaires

La classification est une technique multivariée qui regroupe les observations qui partagent des valeurs similaires parmi un certain nombre de variables. La classification hiérarchique combine les lignes en une séquence hiérarchique représentée sous la forme d'une arborescence. Les céréales présentant certaines caractéristiques, telles qu'une forte teneur en fibres, sont regroupées dans des clusters de sorte que vous puissiez en identifier les similitudes.

Remarque : Pour plus d'informations sur la classification hiérarchique, voir le chapitre Hierarchical Cluster dans Multivariate Methods.

Scénario

Vous souhaitez savoir quelles céréales sont similaires et quelles céréales sont différentes. L'analyse des clusters des données sur les céréales permet de répondre aux questions suivantes :

•	Quel cluster de céréales apporte peu de valeur nutritionnelle ?

•	Quel cluster de céréales est riche en vitamines et minéraux, et a une faible teneur en sucres et en lipides ?

•	Quel cluster de céréales est riche en fibres et pauvre en calories ?

Créer le graphique de classification hiérarchique

1.	Affichez Cereal.jmp et sélectionnez Analyse > Classification > Classification hiérarchique.

2.	Sélectionnez Calories par Enriched, cliquez sur Y, Colonnes puis sur OK.

Le rapport Classification hiérarchique apparaît. Les clusters sont colorés conformément aux états de ligne de la table de données.

Figure 6.11 Portion du rapport Classification hiérarchique

3.	Cliquez sur le triangle rouge Classification hiérarchique et sélectionnez Colorier les clusters.

Les clusters sont colorés en fonction de leurs relations dans le dendrogramme.

Figure 6.12 Clusters colorés

Les céréales ont des caractéristiques similaires dans chaque cluster. Par exemple, le nom des céréales du cluster un vous permet de supposer qu'il s'agit de céréales riches en fibres.

Vous remarquerez de quelle façon les céréales All-Bran with Extra Fiber et Fiber One sont regroupées dans le cluster un. Ces céréales ont plus de similitudes que les deux autres céréales du cluster.

Figure 6.13 Céréales similaires dans le cluster un

4.	Pour sélectionner le cluster un, cliquez sur la ligne horizontale rouge située à droite.

Les quatre céréales apparaissent en rouge.

Figure 6.14 Sélectionner un cluster

5.	Pour voir quelles sont les caractéristiques similaires dans le cluster, cliquez sur le triangle rouge Classification hiérarchique et sélectionnez Résumé de clusters.

Le graphique Résumé de la classification, en bas du rapport, montre la valeur moyenne de chaque variable dans chaque cluster. Par exemple, les céréales de ce cluster contiennent plus de fibres et de potassium que les céréales des autres clusters.

Figure 6.15 Résumé de clusters

6.	Cliquez sur le triangle rouge Classification hiérarchique et sélectionnez Matrice de nuages de points.

Cette option est une alternative permettant de créer une matrice de nuages de points dans la plate-forme Multivariée.

Vous remarquerez le graphique Fiber dans la ligne Potassium. Les céréales sélectionnées se trouvent sur le côté droit du graphique, entre 8 et 13 grammes. Cet emplacement indique que les céréales du cluster un sont riches en fibres et en potassium.

Figure 6.16 Caractéristiques du cluster un

Remarque : Les points sont également sélectionnés dans la matrice de nuages de points que vous avez créée précédemment, à la condition que celle-ci soit encore ouverte.

Interpréter les résultats

Vous pouvez observer les caractéristiques suivantes en cliquant sur les clusters et en étudiant le rapport Résumé de la classification :

•	Les céréales du cluster un, telles que Fiber One et All-Bran, sont riches en fibres et en potassium, et pauvres en calories.

•	Les céréales du cluster deux, qui sont les préférées des enfants, sont riches en sucres et pauvres en fibres, en glucides complexes et en protéines.

•	Les céréales du cluster trois (Puffed Rice et Puffed Wheat) sont pauvres en calories mais ont une faible valeur nutritionnelle.

•	Les céréales du cluster quatre, telles que Total Corn Flakes et Multi-Grain Cheerios, vous apportent 100 % des apports journaliers recommandés en vitamines et minéraux. Elles sont pauvres en lipides, en fibres et en sucres.

•	Les céréales du cluster cinq sont riches en protéines et en lipides, et pauvres en sodium. Le cluster comprend des céréales telles que Banana Nut Crunch et Quaker Oatmeal.

•	Les céréales du cluster six sont pauvres en lipides, et riches en sodium et en glucides. Les céréales traditionnelles telles que Wheaties et Grape-Nuts se trouvent dans ce cluster.

•	Les céréales du cluster sept sont riches en calories et pauvres en fibres. Bon nombre de céréales contenant des fruits secs se trouvent dans ce cluster (Mueslix Healthy Choice, Low Fat Granola w Raisins, Oatmeal Raisin Crisp, Raisin Nut Bran, et Just Right Fruit & Nut).

•	Les céréales du cluster huit sont pauvres en sodium et en sucres, et riches en glucides complexes, en protéines et en potassium. Les céréales Shredded Wheat et Mini-Wheat se trouvent dans ce cluster.

En observant les regroupements dans le dendrogramme, vous pouvez voir quelles sont, dans chaque cluster, les céréales les plus similaires.

•	Dans le cluster un, Fiber One est similaire à All-Bran with Extra Fiber en termes de valeur nutritionnelle. 100% Bran et All-Bran sont également similaires. Chaque paire de céréales similaires contient des céréales fabriquées par des entreprises différentes, qui sont donc concurrentes.

•	Dans le cluster deux, Frosted Flakes et Honey Frosted Wheaties sont similaires, même s'il s'agit de flocons de maïs pour les unes et de flocons de blé pour les autres. Lucky Charms et Frosted Cheerios sont similaires. Cap’n’Crunch et Trix sont elles-aussi similaires.

Tirer les conclusions

Conformément à votre souhait de manger plus de fibres et de réduire votre apport calorique, vous décidez d'essayer les céréales du cluster un. Vous éviterez les céréales du cluster trois, qui sont composées de blé et de riz soufflés et qui ont une faible valeur nutritionnelle. Et, vous essaierez les céréales hautement nutritives du cluster quatre.