JMP Background

Statistiken, Vorhersagemodelle
und Data Mining in JMP®

Statistik ist die technische Disziplin des Sammelns, Beschreibens und Analysierens von Daten mit dem Ziel, Streuung zu quantifizieren und nützliche Beziehungen zu ermitteln. Sie ermöglicht es Ihnen, Probleme zu lösen, Möglichkeiten zu erkennen und trotz bestehender Unsicherheiten fundierte Entscheidungen zu treffen. Durch die effektive Nutzung von Statistiken können Sie Einsichten, Voraussichten und Möglichkeiten zu kontinuierlichem Lernen und Verbessern gewinnen, unabhängig davon, in welchem Kontext Sie arbeiten.

Egal, ob Sie Situationen beschreiben, vorhersagen oder erklären wollen, die statistischen Analysefähigkeiten durch die JMP-eigenen Synergien zwischen Visualisierung und Modellierung werden Sie überzeugen. Unabhängig von Form und Umfang Ihrer Daten: Solange die Daten in Ihren Arbeitsspeicher passen, können Sie mit JMP das Optimale aus ihnen herausholen, ganz egal, wie gut Ihre Statistikkenntnisse sind.

JMP bietet umfassende Funktionen für die univariate lineare und nichtlineare Regression ebenso wie für die nützlicheren multivariaten Ansätze für die Exploration, die Dimensionsreduktion und Modellierung sowie für die Analyse von Zeitreihen und kategorialen Daten. JMP und JMP Pro erfüllen die statistischen Anforderungen der Anwender in den meisten Fällen. Sie stellen die verschiedenen Techniken und Ergebnisse auf eine einfach zugängliche Weise zur Verfügung, ohne dadurch die Analysetiefe einzuschränken. JMP verfügt auch über eine Reihe von Modellierungsfunktionen, mit denen häufige Probleme mit Daten behandelt werden können, während JMP Pro eine Vielzahl von komplexen Algorithmen zur Erstellung besserer Modelle mit unvollständigen oder verzerrten Daten bereitstellt.

Sie können mit JMP nicht nur Modellierungen schnell und korrekt durchführen, sondern mit dem Formeldepot (JMP Pro) nach unterschiedlichen Techniken erstellte Modelle auch problemlos vergleichen und in C, Python, JavaScript oder SAS Scorecode für neue Fälle generieren.

JMP unterstützt Sie durch visuelle und interaktive Berichte und Profildiagramme bei der Kommunikation einfacher oder auch komplexer Ergebnisse an Personen, die nicht mit Statistikmethoden vertraut sind, aber Ihre Ergebnisse verstehen und darauf basierend Entscheidungen treffen müssen. Die Ergebnisse der mit JMP generierten Modelle können auch in einem mobilen oder Desktop-Webbrowser dynamisch analysiert werden.

Mit einer integrierten Funktion kann JMP Pro problemlos Berechnungen von Stichprobengrößen für angepasste Modelle (einfache oder komplexe) über die Monte Carlo-Simulation durchführen. Dies hilft Ihnen, die Eignung der erfassten Daten für die Beantwortung der jeweiligen Fragen zu beurteilen.

Regression

Die Klasse der linearen Regressionsmodelle ist ebenso vielfältig wie vielseitig einsetzbar. JMP legt diese leistungsstarken Methoden in einfach zu nutzender Form in die Hände von Praktikern aller Qualifikationsstufen.

Mit der Anpassung von Y nach X können Sie Abhängigkeiten zwischen einer einzelnen Eingabevariablen und einer einzelnen Ergebnisvariablen überprüfen und modellieren. JMP vereint, was normalerweise als unvereinbare Gruppe von statistischen Ansätzen betrachtet wird, in einer kohärenten, verständlichen Gesamtanwendung und bietet eine graphische Ausgabefunktion, sodass Sie die Ergebnisse einfacher verstehen und vertiefen können.

Die Plattform „Modelle anpassen“ bietet eine Umgebung für das Anpassen einfacher oder komplexer Modelle mit ausgewählten festen und zufälligen Effekten und definierten Fehlertermen. In einer Effektzusammenfassungstabelle können Sie Terme hinzufügen oder entfernen und sehen dabei unmittelbar deren Auswirkung auf das Modell.

Unabhängig von Ihrem bevorzugten Ansatz bietet Ihnen JMP ein komplettes Angebot manueller und automatischer Methoden mit geeigneten Diagnosefunktionen für die schnelle Erstellung der meisten Typen linearer Modelle. Der Ansatz „Informativ fehlend“ gestattet es, Informationen aus allen Zeilen zu nutzen. Spezifische Anpassungsoptionen helfen bei der Konzentration auf die richtigen Stellen. JMP Pro erweitert das Repertoire durch gemischte Modelle (für die korrekte Behandlung wiederholter und räumlicher Messungen) und die verallgemeinerte Regression (mit regularisierten oder pönalisierten Regressionstechniken, wie dem elastischen Netz, das hilft, die X-Variablen zu identifizieren, die möglicherweise Erklärungskraft haben). JMP Pro unterstützt auch die Quantilregression.

Sie können mit JMP konkurrierende Modelle einfach vergleichen. Mehrere Ergebnisse werden einheitlich verarbeitet und das Analysediagramm erleichtert den Vergleich und die Unterscheidung der Interpretierbarkeit und der Ergebnisse verschiedener Anpassungen. Das Analysediagramm ermöglicht Ihnen auch, Einstellungen zu finden, die Ihre Y-Ausgaben optimieren, und Monte Carlo-Simulationen helfen Ihnen zu ermitteln, wie die Variationen in den X-Variablen auf die Y-Ausgaben übertragen werden.

Die nichtlineare Plattform ermöglicht die Modellierung nichtlinearer Beziehungen. Nichtlineare Modelle verwenden entweder die Standardmethode der kleinsten Quadrate oder eine anwenderdefinierte Verlustfunktion. JMP stellt eine Bibliothek nichtlinearer Modelltypen bereit, die für Bioassay- und pharmakokinetische Studien benötigt werden. Hierbei müssen Sie keine Startwerte oder Hilfsformeln eingeben. Gruppierungsvariablen werden unterstützt und Sie können schnell und einfach Subjekteffekte in graphischen Darstellungen isolieren. Mit den Funktionen der anwenderdefinierten Verlustfunktion wird zusätzliche Flexibilität geschaffen, sodass beispielsweise eine robuste Regression durch iterativ neu gewichtete kleinste Quadrate durchführbar ist.

Kategoriale Daten

Die Kategorieplattform in JMP stellt Tabellen, Übersichten und statistische Tests von Ergebnisdaten und Mehrfachergebnisdaten bereit, wenn die gemessenen Ergebnisse auf die Zugehörigkeit zu einer bestimmten Kategorie hinweisen. Solche Daten resultieren aus den verschiedenen Untersuchungen wie etwa Testergebnissen, der Klassifizierung von Defekten oder Nebenwirkungen, sowie der Durchführung von Befragungen.

Auch aufgrund der unterschiedlichen Anwendungen können kategoriale Daten in unterschiedlichen Formaten vorliegen. Eine besondere Stärke der Kategorialplattform besteht darin, dass sie diese Diversität verarbeiten kann, ohne dass die Daten vor der Exploration und Analyse umgeformt werden müssen. Eine oder mehrere Spalten können verwendet werden, um die Kategorien zu definieren, innerhalb derer und zwischen denen die Variationen im Ergebnis bewertet werden. Der Kategorialbericht enthält die sich daraus ergebenden Diagramme der Anteile und Häufigkeiten nach Kategorien. Wenn diese Diagramme in Verbindung mit dem Datenfilter in JMP eingesetzt werden, ermöglichen sie eine rasche und einfache Prüfung großer Mengen an Untersuchungsdaten. Der Bericht kann auch die damit verbundenen Tabellen und Kreuztabellen anzeigen, die gegebenenfalls zur besseren Übersichtlichkeit oder zum Drucken transponiert werden können.

Abhängig von der Art der Ergebnisse können Sie sich statistisch auch mit Fragen wie den folgenden beschäftigen:

  • Variiert das Ergebnismuster mit Stichprobenkategorien und ändert sich dies im Zeitverlauf?
  • Sind die Raten für jede Ergebniskategorie in allen Stichprobenkategorien gleich?
  • Wie knapp liegen die Bewertungen beieinander?
  • Was ist der relative Effekt verschiedener Behandlungen?

Bäume

Die Partition-Plattform in JMP ermöglicht Ihnen die Suche nach Teilungskriterien oder Gruppierungen innerhalb Ihrer Eingaben (X), die die Variation in einer Ausgabe (Y) am besten vorhersagen können. Die Eingaben sowie die Ausgabe können jeweils entweder kategorial oder stetig sein. Der Prozess der Datenaufteilung durch die Auswahl einer geeigneten Variablen und einer geeigneten Gruppierung oder eines Teilungskriteriums für die betreffende Ausgabe ist rekursiv – Sie können den Prozess so lange fortführen, bis Sie eine sinnvolle Übereinstimmung finden. Das Ergebnis wird natürlich in Form eines Baums dargestellt. Sie können auch wichtige Informationen darüber erhalten, welche X-Variablen am meisten zur Erklärung der Variation der Ausgabe beitragen.

Bäume sind robust, auch wenn fehlende Werte vorhanden sind, und berücksichtigen alle gemeinsamen Effekte der Eingaben. Sie können Ihren Baum als Entscheidungsbaum, Bootstrap-Forest (nur JMP Pro) oder Boosted Tree (nur JMP Pro) erstellen. Beachten Sie, dass einfache Entscheidungsbäume nicht gut auf neue Daten übertragen werden können. Wenn Sie eine zuverlässige Vorhersage brauchen, sollten Sie daher JMP Pro in Erwägung ziehen.

Neuronale Netze

Die neuronale Plattform in JMP ermöglicht Ihnen die Einrichtung voll verbundener neuronaler Netze mit verborgenen Knoten in einer oder zwei Schichten (JMP bzw. JMP Pro). In JMP haben alle Knoten dieselbe Aktivierungsfunktion. In JMP Pro kann jeder Knoten eine von drei verschiedenen Aktivierungsfunktionen haben. Jede Schicht kann eine beliebige Anzahl von Knoten enthalten.

JMP Pro gestattet es Ihnen auch, fehlende Werte automatisch zu verarbeiten, X-Variablen innerhalb der Plattform zu transformieren und mithilfe von Boosting und einer von vier Strafmethoden dem Netzwerk beizubringen, auch schwierige Fälle zu lernen.

Multivariate Interdependenztechniken

Multivariate Analysen können entweder auf Beobachtungen (Zeilen) oder Variablen (Spalten) gerichtet sein. Variablen werden möglicherweise gleichberechtigt (Interdependenztechniken) behandelt oder es wird zwischen Faktoren (X) und Ergebnissen (Y) unterschieden (Abhängigkeitstechniken). Gleichgültig, welchen Zweck Ihre Analyse hat: JMP unterstützt Sie bei der Arbeit. (Multivariate Methoden mit X- und Y-Variablen sind im Abschnitt „Multivariate Abhängigkeitstechniken“ beschrieben.)

Für die Berücksichtigung der Datenqualität im Kontext der multivariaten Analyse ist die Erkennung und Verarbeitung von Ausreißern und das Muster fehlender Werte von großer Bedeutung. JMP bietet Funktionen, die Ihnen helfen, diese Probleme ohne großen Aufwand zu lösen. Üblicherweise müssen diese Fragen während der Entwicklung der Analyse iterativ angegangen werden. Die Interaktivität von JMP ist für diese Vorgehensweise besonders gut geeignet.

Die multivariate Plattform ist häufig der Einstiegspunkt in eine Analyse mit vielen Spalten. Sie ermöglicht es, die Zusammenhänge sowie die parametrischen und nichtparametrischen Korrelationen zwischen allen nummerischen Variablenpaaren zu bewerten, Ausreißer zu identifizieren und fehlende Werte zu ersetzen.

Für die Interdependenztechniken stellt JMP Hauptkomponentenanalyse (PCA), Faktoranalyse, Clustern, latente Klassenanalyse, Multidimensionale Skalierung, Zusammenhangsanalyse (JMP Pro), normale Mischungen und selbstorganisierende Karten bereit. Jede dieser Funktionen unterstützt den sich entwickelnden Analysestil, sodass Sie Ihr Vorgehen an die Ergebnisse anpassen können, die sich aus den Daten ergeben.

Mit der Hauptkomponentenanalyse können Sie die Dimensionalität Ihrer Beschreibung verringern, wenn Korrelationen vorhanden sind, und die Implementierung in JMP kann sehr breite Daten effizient verarbeiten. Wenn Sie keine quantitativen, sondern kategoriale Variablen haben, können Sie mit JMP anstelle einer Hauptkomponentenanalyse eine multiple Korrespondenzanalyse durchführen, um ein ähnliches Ergebnis zu erzielen. Mit der Faktorenanalyse können Sie die Variabilität zwischen beobachteten Variablen unter Berücksichtigung einer kleineren Anzahl nicht beobachteter Faktoren modellieren. Die Faktoranalyse-Plattform gestattet mehrere Anpassungen und Rotationen in einem Bericht, und die bedingte Formatierung erlaubt es Ihnen, kleine Werte zu unterdrücken.

Das Clustern ist eine Schlüsseltechnik bei unüberwachtem Lernen. Es werden Untergruppen gebildet, sodass Fälle in einer bestimmten Untergruppe ähnlicher sind als die in einer anderen Untergruppe. Die Cluster-Plattform in JMP ermöglicht die Skalierung und Transformation von Variablen vor der Analyse. Sie stellt Distanzmessungen bereit und umfasst hierarchisches und K-Means-Clustern. Das hierarchische Clustern erstellt ein Dendrogramm, in dem Sie interaktiv navigieren können, um durch das Zusammenfassen von Clustern oder andere Heuristiken die nützlichste Anzahl von Clustern zu bestimmen. Sie können auch räumliche Messungen zu gestapelten Daten hinzufügen, um spezifische Fehlermuster zu clustern.

Die latente Klassenanalyse bietet eine Alternative zu Clustern, und die Zusammenhangsanalyse (auch bekannt als Warenkorbanalyse) identifiziert Verbindungen zwischen bestimmten Objekten (wie zum Beispiel Artikel, die häufig zusammen gekauft werden).

Multivariate Abhängigkeitstechniken

Für multivariate Abhängigkeitstechniken stellt JMP die Regression der partiellen kleinsten Quadrate (PLS), die Diskriminanzanalyse, die Naiver-Bayes- und Nächster-Nachbar-Klassifikatoren sowie den Gauß-Prozess bereit.

PLS ist eine vielseitige Technik, die Daten jeder Form mit einer beliebigen Anzahl von X- und Y-Variablen nutzen kann. Sie wird häufig in Situationen angewendet, in denen die lineare Regression nicht geeignet ist, da mehr X-Variablen als Zeilen vorhanden sind. Sie kann aber auch als nützliche Technik für Vorhersagemodelle allgemein genutzt werden.

Die PLS-Plattform in JMP stellt grundlegende Funktionen bereit. JMP Pro verfügt innerhalb der Plattform für Modellanpassungen zusätzlich über eine PLS-Funktion, die eine Anpassung komplexerer Modelle mit Potenz- und Wechselwirkungstermen ermöglicht. Sie können in JMP Pro auch fehlende Werte ersetzen und mithilfe verschiedener Validierungsmethoden PLS-Modelle erstellen.

JMP stellt sowohl den NIPALS- als auch den SIMPLS-Algorithmus für die Anpassung sowie automatisierte Möglichkeiten für die Suche der am besten geeigneten Anzahl latenter Faktoren für das Modell bereit. Die Software verfügt über alle üblichen Diagnosefunktionen, sodass Sie die Modelleignung prüfen können. Sie können auch schnell angepasste PLS-Modelle mit einer reduzierten Anzahl von Termen generieren, indem Sie in der graphischen Ausgabe einfach die gewünschte Auswahl vornehmen oder einen VIP-Schwellenwert festlegen. Wenn Ihre Zielgröße kategorial ist, können Sie in JMP Pro die PLS-Diskriminanzanalyse verwenden.

Die Diskriminanz-Plattform zeigt auf, welche Kombination von X-Variablen Ihnen hilft, die Zugehörigkeit einer Y-Ausgabe zu einer Kategorie zu erklären. Sie stellt lineare, quadratische oder regularisierte Methoden für die Diskriminierung und schrittweise Auswahl der X-Variablen (falls erforderlich) bereit und gestattet es Ihnen, unsichere oder fehlklassifizierte Zeilen zu überprüfen, um zu ermitteln, welche Folge- oder Abhilfeaktion erforderlich ist. Die Diskriminanz-Plattform kann mithilfe einer optimal geschätzten Kovarianzmatrix, die durch Verkleinern der nichtdiagonalen Einträge erstellt wird, breite sowie sehr breite Probleme verarbeiten.

Der Gauß-Prozess kann zur genauen Interpolation von Y-Werten, die eine Funktion einer beliebigen Zahl von X-Werten sind (zur Erstellung von Ersatzmodellen deterministischer Systeme), oder als allgemeines Modellierungswerkzeug verwendet werden.

Zeitreihen

Mit der Zeitreihen-Plattform von JMP können Sie univariate Zeitreihen erforschen, modellieren und prognostizieren. Ihr statistischer Modellierungsansatz kann durch die übliche Diagnose beschrieben werden, darunter Plots von Autokorrelationen und Teil-Autokorrelationen, Variogrammen, AR-Koeffizienten und Spektraldichte-Plots. Sie können Ihre Zeitreihen einfach zerlegen, um Trends und saisonale Effekte zu entfernen, auch mithilfe der X11-Methode.

Sie können mehrere ARIMA-Modelle für eine Zeitreihe mit einer Reihe von Parametern mit einem einzigen Klick erstellen und das beste Modell mithilfe von Kenngrößen wie AIC, SBC, MAPE und MAE auswählen. Sie können Transfermodelle erstellen, um eine Output-Zeitreihe in Bezug auf eine oder mehrere Input-Zeitreihen zu modellieren und dabei Vorweißen auf die Eingaben anwenden, falls erforderlich. Sie können auch den entsprechenden PROC ARIMA-Code generieren, um Ihr Modell ggf. in SAS auszuführen.

Die Zeitreihen-Plattform enthält auch eine Reihe von Glättungstechniken für Zeitreihen, etwa die exponentielle Holt-Glättung, die saisonale exponentielle Glättung und die Winter-Methode.

In allen Fällen können Sie interaktiv Vorhersagen über das prognostizierte Verhalten mit Konfidenzintervallen erstellen.

Back to Top