Welche Cerealien gehören zu einer gesunden Ernährung? Die Beispieldaten Cereal.jmp (echte Daten, die von den Verpackungen beliebter Cerealien stammen) liefern statistische Daten zu Ballaststoffanteil, Kalorien und anderen Nährwerten. Um die gesündesten Cerealien zu ermitteln, interpretieren Sie Histogramme und beschreibende Statistiken, Korrelationen und Ausreißererkennung, Streudiagramme und Clusteranalysen.
Die Plattform „Verteilung“ veranschaulicht die Verteilung einer einzelnen Variable (univariate Analyse) mit Hilfe von Histogrammen, zusätzlichen Graphen und Berichten. Der Begriff univariat bedeutet lediglich, dass eine Variable und nicht zwei (bivariat) oder viele Variablen (multivariat) beteiligt sind. Sie können die Verteilung mehrerer einzelner Variablen jedoch in einem einzigen Bericht untersuchen. Der Berichtsinhalt für jede Variable unterscheidet sich abhängig davon, ob die Variable kategorial (nominal oder ordinal) oder stetig ist.
Hinweis: Weitere Informationen zur Plattform „Verteilung“ finden Sie im Kapitel zu Verteilungen in Basic Analysis.
1.
Wählen Sie Hilfe > Beispieldatenbibliothek und öffnen Sie Cereal.jmp.
2.
Wählen Sie Analysieren > Verteilung aus.
3.
Drücken Sie die Strg-Taste und klicken Sie auf Manufacturer, Calories, Fat und Fiber.
4.
Klicken Sie auf Y, Spalten und dann auf OK.
Abbildung 8.2 Verteilungen für Manufacturer, Calories, Fat und Fiber
Die Zeile mit Fiber One in Cereal.jmp ist beschriftet. Diese Beschriftung zeigt den Namen des Cerealienprodukts neben einem Datenpunkt in Graphen. Um die gesamte Beschriftung anzuzeigen, ziehen Sie den äußeren rechten Rahmen nach rechts. Platzieren Sie den Mauszeiger auf dem unbeschrifteten Datenpunkt, um „All Bran with Extra Fiber“ anzuzeigen.
Abbildung 8.3 Verteilungen für Cerealien von Nabisco
Abbildung 8.4 Cerealien mit einem hohen Ballaststoffanteil
Abbildung 8.5 Cerealien mit hohem Ballaststoffanteil und niedrigem Kaloriengehalt
Hinweis: Weitere Informationen zur Plattform „Multivariat“ finden Sie im Kapitel zu Korrelationen und multivariaten Techniken in Multivariate Methods.
1.
Klicken Sie in der Datentabelle Cereal.jmp auf das untere Dreieck im oberen Bereich des Spaltenbereichs, um die Auswahl der Zeilen aufzuheben.
Abbildung 8.6 Zeilenauswahl aufheben
2.
Wählen Sie Analysieren > Multivariate Methoden > Multivariat.
3.
Wählen Sie Calories bis Potassium aus, klicken Sie auf Y, Spalten und dann auf OK.
Abbildung 8.7 Korrelationsbericht
Abbildung 8.8 Teil der Streudiagrammmatrix
4.
Klicken Sie auf das rote Dreieck für „Multivariat“ und wählen Sie Paarweise Korrelationen aus, um den Bericht „Paarweise Korrelationen“ anzuzeigen.
Abbildung 8.9 Teil des Berichts „Paarweise Korrelationen“
Die am höchsten korrelierten Paare werden oben im Bericht angezeigt. Die kleinen p-Werte für die Paare deuten auf Korrelation hin. Die signifikanteste Korrelation besteht zwischen Tot Carbo (Gesamtkohlenhydrate) und Calories.
Abbildung 8.10 Kleine p-Werte für Paare
Clustern ist eine multivariate Technik, bei der Beobachtungen mit ähnlichen Werten über eine Anzahl von Variablen zusammen gruppiert werden. Beim hierarchischen Clustern werden Zeilen in einer hierarchischen Folge miteinander verbunden, die als Baum dargestellt wird. Cerealien mit bestimmten Eigenschaften, wie einem hohen Ballaststoffanteil, werden in Clustern gruppiert, so dass Sie Ähnlichkeiten unter den Cerealienprodukten anzeigen können.
Hinweis: Weitere Informationen zum hierarchischen Clustern finden Sie im Kapitel zum hierarchischen Clustern in Multivariate Methods.
1.
Wählen Sie, wenn Cereal.jmp angezeigt wird, Analysieren > Clustern > Hierarchisches Cluster.
2.
Wählen Sie Calories bis Enriched aus, klicken Sie auf Y, Spalten und dann auf OK.
Abbildung 8.11 Teil des Berichts „Hierarchisches Clustern“
Abbildung 8.12 Farblich gekennzeichnete Cluster
Abbildung 8.13 Ähnliche Cerealien in Cluster eins
Abbildung 8.14 Cluster auswählen
Abbildung 8.15 Clusterzusammenfassung
Abbildung 8.16 Eigenschaften von Cluster eins