Quali cereali fanno parte di una dieta sana? La tabella di dati Cereal.jmp (dati reali desunti da confezioni di noti cereali) presenta statistiche sul contenuto di fibre, sulle calorie e altre informazioni nutrizionali. Per identificare i cereali più sani, occorre procedere interpretando istogrammi e statistiche descrittive, correlazioni e individuazione degli outlier, grafici a dispersione e analisi dei cluster.
La piattaforma Distribuzione illustra la distribuzione di una singola variabile (analisi univariata) utilizzando istogrammi, ulteriori grafici e report. La parola univariata significa semplicemente che è coinvolta un'unica variabile invece di due (bivariata) o più variabili (multivariata). Tuttavia, si può esaminare la distribuzione di numerose singole variabili all'interno di un unico report. Il contenuto del report di ciascuna variabile varia in funzione del fatto che la variabile sia categorica (nominale o ordinale) o continua.
Nota: per ulteriori informazioni sulla piattaforma Distribuzione, consultare il capitolo Distributions in Basic Analysis.
1.
Selezionare Guida > Libreria dei dati di esempio e aprire Cereal.jmp.
2.
Selezionare Analizza > Distribuzione.
3.
Premere Ctrl e fare clic su Manufacturer, Calories, Fat e Fiber.
4.
Fare clic su Y, Colonne e quindi su OK.
Figura 6.2 Distribuzioni per produttore, calorie, grassi e fibre
La riga che contiene Fiber One in Cereal.jmp viene etichettata. Questa etichetta mostra il nome del cereale accanto a un punto di dati nei grafici. Per vedere l'intera etichetta, trascinare a destra il bordo verticale destro. Posizionare il cursore sul punto di dati senza etichetta per vedere “All Bran with Extra Fiber”.
Figura 6.3 Distribuzioni per Nabisco Cereals
Figura 6.4 Cereali ad alto contenuto di fibre
Figura 6.5 Cereali con alto contenuto di fibre e calorie ridotte
Nota: Per ulteriori informazioni sulla piattaforma Multivariata, consultare il capitolo Correlations and Multivariate Techniques in Multivariate Methods.
1.
Nella tabella di dati Cereal.jmp fare clic sul triangolo in basso nella parte superiore del riquadro Colonne per deselezionare le righe.
Figura 6.6 Deselezione di righe
2.
Selezionare Analizza > Metodi di analisi multivariata > Multivariato.
3.
Selezionare da Calories a Potassium, fare clic su Y, Colonne e quindi su OK.
Figura 6.7 Report Correlazioni
Figura 6.8 Parte della matrice grafico a dispersione
4.
Fare clic sul triangolo rosso associato a Multivariate e selezionare Correlazioni appaiate per mostrare il report Correlazioni appaiate.
Figura 6.9 Parte del report Correlazioni appaiate
Le coppie più strettamente correlate compaiono nella parte superiore del report. I p-value ridotti per le coppie indicano evidenza di correlazione. La correlazione più significativa è tra Tot Carbo (carboidrati totali) e Calorie.
Figura 6.10 P-value piccoli per le coppie
La clusterizzazione è una tecnica multivariata che raggruppa osservazioni che condividono valori simili di un certo numero di variabili. La clusterizzazione gerarchica unisce righe in una sequenza gerarchica ritratta come un albero. I cereali con alcune caratteristiche, come quelli a elevato contenuto di fibre, sono raggruppati in cluster in modo da poter visualizzare le similarità tra di loro.
Nota: Per ulteriori informazioni sulla clusterizzazione gerarchica, consultare il capitolo Hierarchical Cluster in Multivariate Methods.
1.
Con Cereal.jmp visualizzato, selezionare Analizza > Clusterizzazione > Cluster gerarchico.
2.
Selezionare da Calories a Enriched, fare clic su Y, Colonne e quindi su OK.
Figura 6.11 Parte del report Clusterizzazione gerarchica
Figura 6.12 Cluster colorati
Figura 6.13 Cereali simili nel cluster uno
Figura 6.14 Selezione di un cluster
Figura 6.15 Riepilogo cluster
Figura 6.16 Caratteristiche del cluster uno