Analisi statistica, modelli predittivi e data mining con JMP®

La statistica consiste nel raccogliere, descrivere e analizzare dati per quantificare le variazioni e svelare relazioni utili. Essa permette di risolvere problemi, rivelare opportunità e prendere decisioni consapevoli malgrado le incertezze. Attraverso l'efficace applicazione dell'analisi statistica è possibile ottenere informazioni, previsioni e mezzi per promuovere l'apprendimento e miglioramenti su base costante, in qualsiasi contesto.

Indipendentemente dagli obiettivi della vostra attività, ad esempio descrizione, previsione o illustrazione, apprezzerete in modo particolare il paradigma di esplorazione grafica statistica di JMP, che sfrutta la sinergia intrinseca tra visualizzazione e modellizzazione. Ideale per qualunque formato e dimensione (a condizione che vi sia spazio sufficiente nella memoria) e per utenti con qualsiasi livello di esperienza nell'ambito dell'analisi statistica, JMP permette di ottenere il massimo dai dati a disposizione.

JMP offre funzioni complete per la regressione lineare o non lineare univariata, gli utilissimi approcci multivariati per l'esplorazione, la riduzione della dimensionalità e la modellizzazione, nonché per l'analisi di serie storiche e di dati categorici. Oltre a presentare le tecniche e i risultati in modo facilmente fruibile e senza compromettere la profondità dell'analisi, JMP e JMP Pro sono pensati per soddisfare le esigenze statistiche della maggior parte degli utenti e della maggior parte delle applicazioni. JMP include una serie di utilità di modellizzazione che permettono di gestire fin dall'inizio le problematiche più comuni legate ai dati, mentre JMP Pro offre una serie completa di sofisticati algoritmi per ottenere modelli più efficaci partendo da dati disordinati.

JMP non si limita a costruire modelli precisi in breve tempo, consente anche di mettere a confronto e in contrapposizione modelli basati su approcci diversi, calcolando la media dei risultati e generando codici di scoring per i nuovi casi. Durante il processo è possibile identificare le variabili principali e ottimizzare i risultati con o senza disturbo negli input.

Tramite report e profiler visivi e interattivi, JMP aiuta a comunicare risultati semplici o complessi anche a destinatari che non hanno familiarità con i metodi statistici, ma che necessitano di comprendere e agire sulla base di tali risultati. I risultati dei modelli generati con JMP possono essere profilati dinamicamente in un browser Web mobile o desktop.

Folgende Funktionen sind enthalten:

Regressione

La classe di modelli di regressione lineare è disparata e onnipresente. JMP mette questi efficaci metodi nelle mani di professionisti con qualsiasi livello di esperienza, in un formato facilmente fruibile.

Utilizzando la piattaforma Stima Y rispetto a X è possibile testare e modellizzare le dipendenze tra un singolo input e una risposta. JMP unisce ciò che tradizionalmente è considerato un insieme disparato di approcci statistici trasformandolo in un insieme coerente e accessibile, fornendo inoltre un risultato grafico che semplifica ulteriormente la comprensibilità dei risultati.

La piattaforma Stima modello offre un ambiente unificato per la stima di modelli lineari semplici o complessi con effetti specificati fissi e casuali e termini di errore definiti. Il report Riepilogo effetti permette di trascinare e rilasciare i termini per visualizzare l'impatto sul modello.

Indipendentemente dall'approccio preferito per la costruzione dei modelli, JMP fornisce una serie completa di metodi manuali e automatici, con strumenti diagnostici appropriati, per consentire la costruzione rapida della maggior parte delle tipologie di modelli lineari. Un approccio basato sui "valori mancanti esplicativi" fa sì che le informazioni contenute in tutte le righe contribuiscano all'analisi. Alcune opzioni di stima specifica permettono di focalizzare l'attenzione nel punto giusto. JMP Pro amplia il repertorio con l'aggiunta dei modelli misti (per gestire adeguatamente le misure ripetute e spaziali) e della regressione generalizzata (con tecniche di regressione regolarizzata o con penalizzazione, quali la Rete elastica, che aiutano a identificare le X che potrebbero celare un potenziale esplicativo). JMP Pro supporta inoltre la regressione quantile.

JMP permette di confrontare i modelli concorrenti in modo semplice. Le risposte multiple vengono gestite in modo integrato e il Profiler facilita il confronto e la contrapposizione dell'interpretabilità e i risultati di varie stime. Il Profiler permette inoltre di individuare le impostazioni per ottimizzare le Y, mentre le simulazioni Monte Carlo aiutano a valutare le dinamiche di trasmissione della variazione dalle X alle Y.

La piattaforma Non lineare permette di modellizzare le relazioni non lineari. I modelli non lineari utilizzano i minimi quadrati standard o una funzione di perdita personalizzata. JMP fornisce una libreria contenente i tipi di modelli non lineari necessari per test biologici e studi farmacocinetici, senza bisogno di immettere i valori iniziali o le formule ausiliarie. Le variabili di raggruppamento sono supportate ed è possibile isolare in modo rapido e semplice eventuali effetti dell'oggetto tramite visualizzazioni grafiche. La funzione di perdita personalizzata fornisce ulteriore flessibilità, consentendo di utilizzare ad esempio i minimi quadrati iterativamente ripesati per una regressione robusta.

Dati categorici

La piattaforma Categorico di JMP fornisce tabelle, riepiloghi e test statistici di dati di risposta e dati di risposta multipli quando le risposte misurate indicano l'appartenenza a una particolare categoria. Tali dati vengono generati in una molteplicità di impostazioni, tra cui i risultati di test, la classificazione dei difetti o degli effetti collaterali e indagini sulla somministrazione.

In parte a causa della diversa applicazione, i dati categorici possono essere presentati in vari formati. Un particolare punto di forza della piattaforma Categorico risiede nella capacità di gestire questa diversità senza che occorra ridimensionare i dati prima di eseguire l'esplorazione e l'analisi. È possibile utilizzare una o più colonne per definire le categorie in cui o tra cui viene valutata la variazione nella risposta, mentre il report categorico contiene i grafici risultanti di condivisione e frequenza, per categoria. Utilizzati insieme al Filtro dati di JMP, questi grafici consentono un esame rapido e semplice dei dati dell'indagine su larga scala. Il report può inoltre visualizzare le tabulazioni associate e le tabulazioni incrociate, che in caso di necessità possono essere facilmente trasposte per una visualizzazione o stampa semplificata.

In base alla natura delle risposte, è possibile risolvere statisticamente quesiti quali:

  • I pattern di risposta variano con le categorie di campioni e sono cambiati nel tempo?
  • Per ogni categoria di risposta, gli indici sono gli stessi tra categorie di campioni?
  • Quanto concordano i valutatori?
  • Qual è il rischio relativo associato a trattamenti diversi?

Alberi

La piattaforma di Partizione di JMP consente di individuare segmenti o raggruppamenti di input (X) in grado di predire con maggiore precisione la variazione in un output (Y). X e Y possono entrambe essere categoriche o continue. Il processo di suddivisione dei dati tramite individuazione di una X adeguata e di un raggruppamento o di un punto di taglio adeguato per questa X è ricorsivo: è possibile proseguire fino a ottenere una stima utile. Il risultato è naturalmente rappresentato sotto forma di albero; è inoltre possibile ottenere informazioni importanti sulle X che contribuiscono maggiormente a illustrare la variazione a livello della Y.

Gli alberi sono robusti anche in presenza di valori mancanti e sono in grado di comprendere direttamente qualsiasi effetto congiunto delle X. È possibile sviluppare il proprio albero utilizzando alberi decisionali, foreste di bootstrap (solo JMP Pro) o alberi di boosting (solo JMP Pro). Occorre notare che gli alberi di decisione semplici non consentono una generalizzazione efficace con dati nuovi. Per esigenze di funzioni predittive conviene approfondire le potenzialità offerte da JMP Pro.

Reti neurali

La piattaforma neurale di JMP consente di creare reti neurali completamente connesse con nodi nascosti in uno (JMP) o due strati (JMP Pro). Con JMP, tutti i nodi hanno le stesse funzioni di attivazione. Con JMP Pro, ciascun nodo può avere una tra tre diverse funzioni di attivazione. È possibile inserire qualsiasi numero di nodi in ciascuno strato.

JMP Pro permette inoltre di gestire automaticamente i dati mancanti, trasformare le X all'interno della piattaforma e utilizzare il boosting per aiutare la rete ad apprendere casi difficili applicando uno dei quattro metodi di penalizzazione.

Tecniche a interdipendenza multivariata

Le analisi multivariate possono focalizzarsi su unità osservazionali (righe) o variabili (colonne) e possono trattare variabili su una base di parità (tecniche a interdipendenza) o distinguere tra effetti (X) e risposte (Y) (tecniche a dipendenza). Ma qualunque sia l'obiettivo analitico, JMP lavorerà con voi per completare l'analisi (per approfondire i metodi di analisi multivariata con X e Y consultate la sezione Tecniche a dipendenza multivariata).

Tenuto conto del contesto multivariato, appare fondamentale considerare la qualità dei dati, l'identificazione e il trattamento degli outlier e il pattern dei valori mancanti. JMP mette a disposizione funzioni che eliminano le attività ripetitive da questi processi. Solitamente questi vanno risolti iterativamente nel corso dell'analisi e l'interattività di JMP soddisfa questa esigenza. Per le tecniche a dipendenza, JMP offre funzioni di analisi delle componenti principali (PCA), analisi fattoriale, clusterizzazione, misture di normali e mappe auto-organizzate. Ciascuna funzione utilizza lo stile di analisi illustrativa di JMP, così da poter modellare l'approccio in base alle informazioni emerse dai dati.

Spesso la piattaforma multivariata costituisce il punto di accesso a qualsiasi analisi con numerose colonne. Essa consente una valutazione rapida delle associazioni e delle correlazioni, parametriche e non, tra tutte le coppie di variabili numeriche, l'identificazione degli outlier e l'immissione dei valori mancanti.

L'analisi delle componenti principali permette di ridurre la dimensionalità della descrizione in presenza di correlazioni, mentre l'implementazione in JMP permette di accogliere dati molti ampi in modo efficiente. Quando sono presenti variabili categoriche (più che quantitative), è possibile utilizzare JMP per eseguire l'analisi delle corrispondenze multiple al posto dell'analisi delle componenti principali per ottenere un risultato simile. L'analisi fattoriale permette di modellizzare la variabilità tra le variabili osservate in termini di un numero più piccolo di fattori non osservati. La piattaforma di analisi fattoriale consente numerose stime e rotazioni in un unico report, mentre la formattazione condizionale consente l'eliminazione dei valori più piccoli.

La clusterizzazione - tecnica fondamentale nell'apprendimento non controllato - crea sottogruppi in modo che i casi presenti in un particolare sottogruppo abbiano maggiori punti in comune rispetto a quelli presenti in un altro sottogruppo. La piattaforma di clusterizzazione di JMP consente di rappresentare in scala e trasformare le variabili prima di eseguire l'analisi, fornisce svariate misure della distanza e include la clusterizzazione gerarchica e la classificazione basata sul metodo delle k medie. La clusterizzazione gerarchica produce un dendrogramma manipolabile interattivamente con cui determinare il numero idoneo di cluster utilizzando le funzioni di riepilogo cluster o altre tecniche euristiche. È anche possibile aggiungere misurazioni spaziali ai dati impilati per consentire la clusterizzazione di schemi di difetti specifici.

Tecniche a dipendenza multivariata

Per le tecniche a dipendenza multivariata, JMP offre funzioni di regressione dei minimi quadrati parziali (PLS) e analisi discriminante.

I minimi quadrati parziali (PLS) costituiscono una tecnica versatile adattabile a dati in qualsiasi forma e a qualsiasi numero di X e di Y. Viene spesso applicata laddove la regressione lineare non è praticabile in quanto vi sono più X che righe, ma può essere vista più in generale anche come tecnica efficace nell'ambito dei modelli predittivi.

La piattaforma PLS di JMP offre funzionalità di base, mentre con JMP Pro è presente anche una personalità PLS nella piattaforma Stima modello che permette di adattare modelli più complessi che includono potenze e termini di interazione. Con JMP Pro è possibile anche imputare valori mancanti e costruire modelli PLS utilizzando un'ampia scelta di metodi di convalida.

JMP fornisce entrambi gli algoritmi NIPALS e SIMPLS per la stima e metodi automatici per individuare il numero più appropriato di fattori latenti da includere nel modello. Sono disponibili tutti i consueti metodi diagnostici, così da consentire la verifica dell'adeguatezza del modello. È inoltre possibile generare rapidamente modelli PLS con un numero ridotto di termini semplicemente effettuando selezioni adeguate nel risultato grafico o definendo un valore di soglia VIP. Se la riposta è categorica, è possibile utilizzare l'analisi discriminante dei Minimi quadrati parziali di JMP Pro.

La piattaforma Discriminante permette di comprendere quali combinazioni di X aiutano a illustrare l'appartenenza di una Y a una determinata categoria. Essa fornisce metodi lineari, quadratici o regolarizzati per la discriminazione, all'occorrenza la selezione stepwise delle X, e consente l'ispezione semplice delle righe incerte o classificate erroneamente in modo da definire le azioni di controllo o risolutive da adottare.

L'analisi discriminante permette di gestire in modo efficiente problemi di grandi o grandissime dimensioni sfruttando una matrice di covarianza con stima ottimale ottenuta riducendo adeguatamente le voci non diagonali.

Serie storiche

La piattaforma Serie storiche di JMP permette di esplorare, elaborare e prevedere serie storiche univariate. L'approccio di modellizzazione statistica può ricavare informazioni dalle normali diagnosi, inclusi diagrammi di autocorrelazioni e autocorrelazioni parziali, variogrammi, coefficienti AR e grafici di densità spettrale. È possibile scomporre facilmente le serie storiche per rimuovere tendenze ed effetti stagionali, incluso l'utilizzo del metodo X11.

Con un solo clic è possibile costruire svariati modelli ARIMA per una serie storica con un range di parametri, nonché selezionare il modello più idoneo utilizzando vari indicatori di adattamento, quali AIC, SBC, MAPE e MAE. È possibile costruire modelli di trasferimento per la modellizzazione di una serie storica di output rispetto a una o più serie di input con, all'occorrenza, eliminazione preventiva del white noise a livello degli input. È inoltre possibile generare l'equivalente codice PROC ARIMA per l'esecuzione del modello su SAS, se necessario.

La piattaforma Serie storiche contiene inoltre diverse tecniche di smoothing per le serie storiche, incluso lo smoothing esponenziale di Holt, lo smoothing esponenziale stagionale e il metodo di Winter.

In tutti i casi è possibile produrre previsioni interattive del comportamento futuro con intervalli di confidenza.

Back to Top