Streudiagramme und andere Graphen dieser Art können Ihnen dabei helfen, die Beziehungen zwischen Variablen zu untersuchen. Wenn Sie Beziehungen visualisiert haben, besteht der nächste Schritt darin, die Beziehungen zu analysieren, damit Sie sie numerisch beschreiben können. Diese numerische Beschreibung der Beziehung zwischen Variablen wird als Modell bezeichnet. Besonders wichtig ist, dass ein Modell auch den Durchschnittswert einer Variablen (Y) aus dem Wert einer anderen Variablen (X) prognostiziert. Die X-Variable wird auch als Prädiktor bezeichnet. Im Allgemeinen wird dieses Modell Regressionsmodell genannt.
In JMP erstellen die Plattform Y nach X anpassen und die Plattform Modell anpassen ein Regressionsmodell.
Tabelle 7.3 Beziehungstypen zeigt die vier primären Typen von Beziehungen.
Tabelle 7.3 Beziehungstypen
Dieses Beispiel verwendet die Datentabelle Companies.jmp, die Finanzdaten für 32 Unternehmen aus der Pharma- und Computerindustrie enthält.
Zuerst erstellen Sie ein Streudiagramm, um die Beziehung zwischen der Anzahl von Mitarbeitern und dem Umsatz zu ermitteln. Dieses Streudiagramm wurde in Streudiagramm erstellen im Visualisieren Ihrer Daten erstellt. Nachdem ein Ausreißer (ein Unternehmen mit deutlich mehr Mitarbeitern und höheren Umsätzen) ausgeblendet und ausgeschlossen wurde, zeigt das Diagramm in Abbildung 7.12 Streudiagramm von Sales ($M) gegen # Employ das Ergebnis.
Abbildung 7.12 Streudiagramm von Sales ($M) gegen # Employ
Um den Umsatz aus der Anzahl der Mitarbeiter zu prognostizieren, passen Sie ein Regressionsmodell an. Klicken Sie auf das rote Dreieck für „Bivariate Anpassung“ und wählen Sie Gerade anpassen aus. Eine Regressionslinie wird dem Streudiagramm hinzugefügt und Berichte werden in das Berichtsfenster eingefügt.
Abbildung 7.13 Regressionslinie
p-Wert von < 0,0001
Der p-Wert für den Modellterm #Employ ist klein. Dies deutet darauf hin, dass der Koeffizient für #Employ beim Signifikanzniveau 0,05 nicht null ist. Daher lassen sich die Durchschnittsumsätze signifikant besser vorhersagen, wenn die Anzahl der Mitarbeiter in das Vorhersagemodell aufgenommen wird.
2.
Wählen Sie Zeilen > Ausschließen/Einschließen.
Abbildung 7.14 Vergleichen der Modelle
Unter Heranziehung der Ergebnisse in Abbildung 7.14 Vergleichen der Modelle kann der Datenanalyst folgende Schlussfolgerungen ziehen:
Dieses Beispiel verwendet die Datentabelle Companies.jmp, die Finanzdaten für 32 Unternehmen aus der Pharma- und Computerindustrie enthält.
1.
Wählen Sie Hilfe > Beispieldatenbibliothek und öffnen Sie Companies.jmp.
2.
Wenn die Beispieldatentabelle Companies.jmp noch offen ist, sind darin vielleicht ausgeschlossene oder ausgeblendete Zeilen. Um die Zeilen in den Standardzustand zurückzusetzen (alle Zeilen eingeschlossen, keine ausgeblendet), wählen Sie Zeilen > Zeileneigenschaften aufheben.
3.
Wählen Sie Analysieren > Y nach X anpassen.
4.
Wählen Sie Profit ($M) aus und klicken Sie auf Y, Zielgröße.
5.
Wählen Sie Type und klicken Sie auf X, Faktor.
Abbildung 7.15 Gewinne nach Unternehmenstyp
2.
Wählen Sie Zeilen > Ausschließen/Einschließen. Der Datenpunkt ist in den Berechnungen nicht mehr enthalten.
3.
Wählen Sie Zeilen > Ausblenden/Einblenden. Der Datenpunkt ist auf allen Graphen ausgeblendet.
4.
Um das Diagramm ohne den Ausreißer neu zu erstellen, klicken Sie auf „Einfaktorielle Analyse von Profits ($M) nach Type“ und wählen Wiederholen > Analyse wiederholen. Sie können das Original-Streudiagramm-Fenster schließen.
Abbildung 7.16 Aktualisiertes Diagramm
Anzeigeoptionen > Mittelwertlinie. Damit werden dem Streudiagramm Mittelwertlinien hinzugefügt.
Mittelwerte und Standardabweichung. Damit wird ein Bericht angezeigt, der Durchschnittswerte und Standardabweichungen enthält.
Abbildung 7.17 Mittelwertlinien und Bericht
Um diese Fragen zu beantworten, führen Sie einen Zwei-Stichproben-t-Test durch. Bei einem t-Test verwenden Sie Daten aus einer Stichprobe, um Inferenzen über die Grundgesamtheit zu erstellen.
Um den t-Test durchzuführen, klicken Sie auf das rote Dreieck für „Einfaktorielle Analyse“ und wählen Mittelwerte/ANOVA/gepooltes t aus.
Abbildung 7.18 t-Test-Ergebnisse
Der p-Wert 0,0001 ist kleiner als das Signifikanzniveau von 0,05, woraus statistische Signifikanz folgt. Daher kann der Finanzanalyst daraus schließen, dass die Differenz in den Durchschnittsgewinnen für die Stichprobendaten nicht nur zufallsbedingt ist. Dies bedeutet, dass in der Gesamtpopulation die durchschnittlichen Gewinne für Pharmaunternehmen von den durchschnittlichen Gewinnen der Computerunternehmen verschieden sind.
Verwenden Sie die Konfidenzintervallgrenzen, um zu ermitteln, wie groß der Unterschied der Gewinne der beiden Unternehmenstypen ist. Sehen Sie sich die Werte Diff KI oben und DIff KI unten in Abbildung 7.18 t-Test-Ergebnisse an. Der Geschäftsanalyst kommt zu der Schlussfolgerung, dass der durchschnittliche Gewinn von Pharmaunternehmen zwischen 343 Mio. Dollar und 926 Mio. Dollar höher ist als der durchschnittliche Gewinn von Computerunternehmen.
Wenn Sie kategoriale X- und Y- Variable haben, können Sie die Verhältnisse der Ebenen innerhalb der Y-Variablen mit den Ebenen innerhalb der X-Variablen vergleichen.
In diesem Beispiel wird weiterhin die Datentabelle Companies.jmp verwendet. In Durchschnittswerte für eine Variable vergleichen hat ein Finanzanalyst ermittelt, dass Pharmaunternehmen durchschnittlich höhere Gewinne haben als Computerfirmen.
1.
Wählen Sie Hilfe > Beispieldatenbibliothek und öffnen Sie Companies.jmp.
2.
Wenn die Datendatei Companies.jmp aus dem vorherigen Beispiel noch offen ist, werden vielleicht Zeilen angezeigt, die ausgeschlossen oder verborgen sind. Um die Zeilen in den Standardzustand zurückzusetzen (alle Zeilen eingeschlossen, keine ausgeblendet), wählen Sie Zeilen > Zeileneigenschaften aufheben.
3.
Wählen Sie Analysieren > Y nach X anpassen.
4.
Wählen Sie Size Co aus und klicken Sie auf Y, Zielgröße.
5.
Wählen Sie Type und klicken Sie auf X, Faktor.
Abbildung 7.19 Unternehmensgröße nach Unternehmenstyp
Abbildung 7.20 Aktualisierte Kontingenztabelle
Um diese Frage zu beantworten, verwenden Sie den p-Wert aus dem Pearson-Test im Bericht Tests (Unternehmensgröße nach Unternehmenstyp). Da der p-Wert von 0,011 geringer als das Signifikanzniveau von 0,05 ist, schließt der Geschäftsanalyst daraus:
Im Abschnitt Durchschnittswerte für eine Variable vergleichen wurden Durchschnittswerte über mehrere Ebenen einer kategorialen Variablen verglichen. Um Durchschnittswerte über die Ebenen von zwei oder mehr Variablen auf einmal zu vergleichen, verwenden Sie die Varianzanalyse (oder ANOVA).
Typ (Pharma oder Computer)
Größe (klein, mittel, groß)
1.
Wählen Sie Hilfe > Beispieldatenbibliothek und öffnen Sie Companies.jmp.
2.
Wählen Sie Graph > Graphik erstellen. Das Fenster „Graphik erstellen“ erscheint.
3.
Klicken Sie auf Profits ($M) und ziehen Sie das Element in den Y-Bereich.
4.
Klicken Sie auf Size Co und ziehen Sie das Element in den Bereich X.
5.
Klicken Sie auf Type und ziehen Sie das Element in den Bereich Gruppe X.
Abbildung 7.21 Graph der Unternehmensprofile
6.
Wählen Sie den Ausreißer aus, klicken Sie mit der rechten Maustaste darauf und wählen Sie Zeilen > Zeile ausschließen. Der Punkt wird entfernt und die Skala des Graphen wird automatisch aktualisiert.
Abbildung 7.22 Graph mit entferntem Ausreißer
1.
Kehren Sie zur Stichproben-Datentabelle Companies.jmp zurück, in der der Datenpunkt ausgeschlossen ist. Siehe Die Beziehung erkennen.
2.
Wählen Sie Analysieren > Modell anpassen.
3.
Wählen Sie Profits ($M) aus und klicken Sie auf Y.
4.
Wählen Sie sowohl Type als auch Size Co.
5.
Klicken Sie auf die Schaltfläche Makros und wählen Sie Vollfaktoriell.
7.
Wählen Sie die Option Dialogfeld geöffnet lassen.
Abbildung 7.23 Fenster „Modell anpassen“
8.
Klicken Sie auf Ausführen. Im Berichtsfenster werden die Modellergebnisse angezeigt.
Hinweis: Weitere Informationen zu allen Ergebnissen der Modellanpassung finden Sie im Kapitel zur Modellspezifikation in Fitting Linear Models.
Der Bericht „Effekttests“ (Abbildung 7.24 Bericht „Effekttests“) zeigt die Ergebnisse der statistischen Tests. Es gibt einen Test für jeden Effekt, der im Modell des Fensters „Modell anpassen“ enthalten ist: Type, Size Co und Type*Size Co.
Abbildung 7.24 Bericht „Effekttests“
Sehen Sie sich erst den Test für die Wechselwirkung im Modell an: Type*Size Co-Effekt. Abbildung 7.22 Graph mit entferntem Ausreißer zeigte, dass die Pharmaunternehmen offenbar je nach Unternehmensgröße unterschiedliche Gewinngrößen aufweisen. Der Effekttest zeigt aber, dass es keine Wechselwirkung zwischen „type“ und „size“ in Bezug auf den Gewinn gibt. Der p-Wert von 0,218 ist groß (größer als das Signifikanzniveau von 0,05). Daher entfernen Sie diesen Effekt aus dem Modell und führen Sie das Modell erneut aus.
2.
3.
Klicken Sie auf Ausführen.
Abbildung 7.25 Aktualisierter Bericht „Effekttests“
Der p-Wert für den Size Co-Effekt ist groß und weist darauf hin, dass es in der Grundgesamtheit keine Unterschiede basierend auf der Größe gibt. Der p-Wert für den Type-Effekt ist klein und weist darauf hin, dass die Unterschiede, die Sie in den Daten zwischen den Computer- und Pharmafirmen gesehen haben, nicht auf Zufall beruhen.
Im Abschnitt Regression mit einem Prädiktor verwenden wurde gezeigt, wie einfache Regressionsmodelle mit einer Prädiktorvariablen und einer Zielgrößenvariablen erstellt werden. Multiple Regression prognostiziert die durchschnittliche Zielgrößenvariable mit zwei oder mehr Prädiktorvariablen.
In diesem Beispiel wird die Beispieldatentabelle Candy Bars.jmp verwendet, die Ernährungsdaten für Schokoriegel enthält.
Verwenden Sie die multiple Regression, um die durchschnittliche Zielgrößenvariable mit diesen drei Prädiktorvariablen zu prognostizieren.
1.
Wählen Sie Hilfe > Beispieldatenbibliothek und öffnen Sie Candy Bars.jmp.
2.
Wählen Sie Graph > Streudiagramm-Matrix.
3.
Wählen Sie Calories aus und klicken Sie auf Y, Spalten.
4.
Wählen Sie Total fat g, Carbohydrate g und Protein g aus und klicken Sie auf X.
Abbildung 7.26 Ergebnisse der Streudiagramm-Matrix
1.
Wählen Sie Analysieren > Modell anpassen.
2.
Wählen Sie Calories aus und klicken Sie auf Y.
3.
Wählen Sie Total fat g, Carbohydrate g und Protein g aus und klicken Sie auf Hinzufügen.
4.
Abbildung 7.27 Fenster „Modell anpassen“
5.
Klicken Sie auf Ausführen.
Hinweis: Weitere Informationen zu allen Modellergebnissen finden Sie im Kapitel zur Modellspezifikation in Fitting Linear Models.
Abbildung 7.28 Diagramm „Beobachtete Werte über Vorhersage“
Eine andere Messung der Modellgenauigkeit ist der r2-Wert (der unter dem Diagramm in Abbildung 7.28 Diagramm „Beobachtete Werte über Vorhersage“ erscheint). Der r2-Wert misst den Prozentsatz der Variabilität der Kalorien, der durch das Modell erklärt wird. Ein Wert näher an 1 bedeutet, dass das Modell eine gute Prognose liefert. In diesem Beispiel ist der r2-Wert 0,99.
p-Werte für jeden Parameter
Abbildung 7.29 Bericht „Parameterschätzer“
In diesem Beispiel sind die p-Werte alle sehr klein (<0,0001). Dies zeigt, dass alle drei Effekte (Fett, Kohlehydrate und Protein) signifikant zur Prognose der Kalorien beitragen.
Abbildung 7.30 Analysediagramm - Vorhersageanalyse
Abbildung 7.31 Faktorwerte für Milky Way
Hinweis: Weitere Informationen zur Vorhersageanalyse finden Sie im Kapitel zum Analysediagramm in Profilers.