Welche Cerealien gehören zu einer gesunden Ernährung? Die Beispieldaten Cereal.jmp (echte Daten, die von den Verpackungen beliebter Cerealien stammen) liefern statistische Daten zu Ballaststoffanteil, Kalorien und anderen Nährwerten. Um die gesündesten Cerealien zu ermitteln, interpretieren Sie Histogramme und beschreibende Statistiken, Korrelationen und Ausreißererkennung, Streudiagramme und Clusteranalysen.
Die Plattform „Verteilung“ veranschaulicht die Verteilung einer einzelnen Variable (univariate Analyse) mit Hilfe von Histogrammen, zusätzlichen Graphen und Berichten. Der Begriff univariat bedeutet lediglich, dass eine Variable und nicht zwei (bivariat) oder viele Variablen (multivariat) beteiligt sind. Sie können die Verteilung mehrerer einzelner Variablen jedoch in einem einzigen Bericht untersuchen. Der Berichtsinhalt für jede Variable unterscheidet sich abhängig davon, ob die Variable kategorial (nominal oder ordinal) oder stetig ist.
Hinweis: Weitere Informationen zur Plattform „Verteilung“ finden Sie im Kapitel zu Verteilungen in Basic Analysis.
1.
|
2.
|
Wählen Sie Analysieren > Verteilung aus.
|
3.
|
4.
|
Abbildung 8.2 Verteilungen für Manufacturer, Calories, Fat und Fiber
Die Zeile mit Fiber One in Cereal.jmp ist beschriftet. Diese Beschriftung zeigt den Namen des Cerealienprodukts neben einem Datenpunkt in Graphen. Um die gesamte Beschriftung anzuzeigen, ziehen Sie den äußeren rechten Rahmen nach rechts. Platzieren Sie den Mauszeiger auf dem unbeschrifteten Datenpunkt, um „All Bran with Extra Fiber“ anzuzeigen.
Abbildung 8.3 Verteilungen für Cerealien von Nabisco
Abbildung 8.4 Cerealien mit einem hohen Ballaststoffanteil
Tipp: Lassen Sie den Bericht der Verteilungen geöffnet. Sie benötigen ihn später in einer Clusteranalyse. Siehe Ähnliche Werte analysieren.
Hinweis: Weitere Informationen zur Plattform „Multivariat“ finden Sie im Kapitel zu Korrelationen und multivariaten Techniken in Multivariate Methods.
1.
|
Klicken Sie in der Datentabelle Cereal.jmp auf das untere Dreieck im oberen Bereich des Spaltenbereichs, um die Auswahl der Zeilen aufzuheben.
|
Abbildung 8.6 Zeilenauswahl aufheben
2.
|
Wählen Sie Analysieren > Multivariate Methoden > Multivariat.
|
3.
|
Abbildung 8.7 Korrelationsbericht
–
|
Abbildung 8.8 Teil der Streudiagrammmatrix
4.
|
Klicken Sie auf das rote Dreieck für „Multivariat“ und wählen Sie Paarweise Korrelationen aus, um den Bericht „Paarweise Korrelationen“ anzuzeigen.
|
Abbildung 8.9 Teil des Berichts „Paarweise Korrelationen“
5.
|
Um rasch zu erkennen, welche Paare hochkorreliert sind, klicken Sie mit der rechten Maustaste in den Bericht und wählen das Kontrollkästchen Sortieren nach Spalte, Signif. Wahrsch., Aufsteigend aus und klicken dann auf OK.
|
Die am höchsten korrelierten Paare werden oben im Bericht angezeigt. Die kleinen p-Werte für die Paare deuten auf Korrelation hin. Die signifikanteste Korrelation besteht zwischen Tot Carbo (Gesamtkohlenhydrate) und Calories.
Clustern ist eine multivariate Technik, bei der Beobachtungen mit ähnlichen Werten über eine Anzahl von Variablen zusammen gruppiert werden. Beim hierarchischen Clustern werden Zeilen in einer hierarchischen Folge miteinander verbunden, die als Baum dargestellt wird. Cerealien mit bestimmten Eigenschaften, wie einem hohen Ballaststoffanteil, werden in Clustern gruppiert, so dass Sie Ähnlichkeiten unter den Cerealienprodukten anzeigen können.
Hinweis: Weitere Informationen zum hierarchischen Clustern finden Sie im Kapitel zum hierarchischen Clustern in Multivariate Methods.
•
|
1.
|
2.
|
Abbildung 8.11 Teil des Berichts „Hierarchisches Clustern“
3.
|
Klicken Sie auf das rote Dreieck für „Hierarchisches Clustern“ und wählen Sie Cluster färben aus.
|
Abbildung 8.12 Farblich gekennzeichnete Cluster
Abbildung 8.13 Ähnliche Cerealien in Cluster eins
Abbildung 8.14 Cluster auswählen
5.
|
Abbildung 8.15 Clusterzusammenfassung
6.
|
Klicken Sie auf das rote Dreieck für „Hierarchisches Clustern“ und wählen Sie Streudiagramm-Matrix aus.
|
Abbildung 8.16 Eigenschaften von Cluster eins