Quali cereali fanno parte di una dieta sana? La tabella di dati Cereal.jmp (dati reali desunti da confezioni di noti cereali) presenta statistiche sul contenuto di fibre, sulle calorie e altre informazioni nutrizionali. Per identificare i cereali più sani, occorre procedere interpretando istogrammi e statistiche descrittive, correlazioni e individuazione degli outlier, grafici a dispersione e analisi dei cluster.
La piattaforma Distribuzione illustra la distribuzione di una singola variabile (analisi univariata) utilizzando istogrammi, ulteriori grafici e report. La parola univariata significa semplicemente che è coinvolta un'unica variabile invece di due (bivariata) o più variabili (multivariata). Tuttavia, si può esaminare la distribuzione di numerose singole variabili all'interno di un unico report. Il contenuto del report di ciascuna variabile varia in funzione del fatto che la variabile sia categorica (nominale o ordinale) o continua.
Nota: per ulteriori informazioni sulla piattaforma Distribuzione, consultare il capitolo Distributions in Basic Analysis.
1.
|
2.
|
Selezionare Analizza > Distribuzione.
|
3.
|
4.
|
La riga che contiene Fiber One in Cereal.jmp viene etichettata. Questa etichetta mostra il nome del cereale accanto a un punto di dati nei grafici. Per vedere l'intera etichetta, trascinare a destra il bordo verticale destro. Posizionare il cursore sul punto di dati senza etichetta per vedere “All Bran with Extra Fiber”.
Figura 6.3 Distribuzioni per Nabisco Cereals
Figura 6.4 Cereali ad alto contenuto di fibre
Suggerimento: lasciare aperto il report Distribuzioni. Lo si utilizzerà più avanti nell'analisi dei cluster. Vedere Analisi di valori simili.
Nota: Per ulteriori informazioni sulla piattaforma Multivariata, consultare il capitolo Correlations and Multivariate Techniques in Multivariate Methods.
1.
|
Nella tabella di dati Cereal.jmp fare clic sul triangolo in basso nella parte superiore del riquadro Colonne per deselezionare le righe.
|
Figura 6.6 Deselezione di righe
2.
|
Selezionare Analizza > Metodi di analisi multivariata > Multivariato.
|
3.
|
Figura 6.7 Report Correlazioni
Figura 6.8 Parte della matrice grafico a dispersione
4.
|
Fare clic sul triangolo rosso associato a Multivariate e selezionare Correlazioni appaiate per mostrare il report Correlazioni appaiate.
|
Figura 6.9 Parte del report Correlazioni appaiate
5.
|
Per visualizzare rapidamente quali coppie sono strettamente correlate, fare clic sul report con il pulsante destro del mouse e selezionare la casella Ordina per colonna, Prob signif, Crescente e fare clic su OK.
|
Le coppie più strettamente correlate compaiono nella parte superiore del report. I p-value ridotti per le coppie indicano evidenza di correlazione. La correlazione più significativa è tra Tot Carbo (carboidrati totali) e Calorie.
Figura 6.10 P-value piccoli per le coppie
La clusterizzazione è una tecnica multivariata che raggruppa osservazioni che condividono valori simili di un certo numero di variabili. La clusterizzazione gerarchica unisce righe in una sequenza gerarchica ritratta come un albero. I cereali con alcune caratteristiche, come quelli a elevato contenuto di fibre, sono raggruppati in cluster in modo da poter visualizzare le similarità tra di loro.
Nota: Per ulteriori informazioni sulla clusterizzazione gerarchica, consultare il capitolo Hierarchical Cluster in Multivariate Methods.
1.
|
2.
|
Figura 6.11 Parte del report Clusterizzazione gerarchica
3.
|
Figura 6.12 Cluster colorati
Figura 6.13 Cereali simili nel cluster uno
Figura 6.14 Selezione di un cluster
5.
|
Figura 6.15 Riepilogo cluster
6.
|
Fare clic sul triangolo rosso associato a Clusterizzazione gerarchica e selezionare Matrice del grafico a dispersione.
|
Figura 6.16 Caratteristiche del cluster uno