I disegni statistici sono gli strumenti di cui hai bisogno per superare il tuo istinto di raccolta dati

di Phil Kay, JMP

Grafico a dispersione di visualizzazione dati scuro hr

Style

section-top-padding-small

Phil Kay

Phil Kay è il Global Technical Enablement Manager per JMP Statistical Discovery, una sussidiaria di SAS. Il suo lavoro consiste nel comprendere le sfide in termini scientifici e ingegneristici e fornire alle organizzazioni industriali di tutto il mondo l'assistenza necessaria per usare al meglio le soluzioni di analisi dei dati.

In precedenza, Kay ha lavorato per Fujifilm Imaging Colorants, dove ha ricoperto un ruolo chiave come scienziato nello sviluppo di numerosi processi per la produzione di coloranti per la stampa digitale. Ha conseguito una laurea magistrale in statistica applicata con una tesi sul disegno di esperimenti. Inoltre, ha una laurea magistrale e un dottorato di ricerca in chimica.

Kay è membro della Royal Statistical Society, registrato come Chartered Chemist e fa parte della commissione del Process Chemistry and Technology Group della Royal Society of Chemistry.

Gli piace mostrare alle persone come l'analisi dei dati contribuisca a migliorare la scienza. Segui Phil Kay, Divulgatore dell'analisi dei dati, su LinkedIn.

Il tuo istinto ti impedisce di risolvere problemi

Le statistiche hanno un problema. E quel problema sono gli scienziati. Nonostante tutto il successo che il disegno statistico di esperimenti (DOE) ha avuto nel risolvere problemi nell'industria, molti scienziati e ingegneri continuano a non utilizzarlo e sprecano il loro tempo in metodi inefficienti e inefficaci. È incredibilmente frustrante. Ma innovazioni come la sperimentazione automatica e l'ottimizzazione bayesiana potrebbero essere sul punto di cambiare le cose.

Il motivo per cui gli scienziati non utilizzano il DOE è in parte legato alla familiarità, ma anche perché richiede un modo di pensare che può essere in contrasto con gli istinti di uno scienziato. Le innovazioni più efficaci nel DOE sono quindi venute da coloro che hanno compreso questa tensione e sono stati in grado di trovare un equilibrio. Riflettere su questi risultati ci aiuta a capire da dove arriveranno le innovazioni future.

Pensare fuori dagli schemi

Uno dei più importanti innovatori del XX secolo nella risoluzione dei problemi basata sui dati è stato George Box, e non era un sostenitore della teoria fine a se stessa. Riteneva che uno strumento generalmente utile fosse preferibile a una soluzione ottimale a livello locale, paragonando questo approccio al modo in cui la mano umana può svolgere molte diverse attività.

Queste opinioni derivavano dall’esperienza diretta di Box nelle scienze sperimentali. Ha iniziato come chimico e ha scoperto i principi di progettazione statistica standard mentre lavorava alla Chemical Defence Experimental Station di Porton Down durante la seconda guerra mondiale. Negli anni '50, presso ICI Dyestuffs, sviluppò il metodo della superficie di risposta, che sarebbe stato ampiamente utilizzato per l'ottimizzazione nei settori dei processi in generale. Il suo approccio pratico ha avuto successo perché si concentrava sull'aiutare i veri chimici a risolvere problemi reali: "Era importante conoscere i dettagli dei processi [...] salire e scendere le scale, parlare e discutere ogni giorno con il personale tecnico e gli addetti ai processi e insegnare loro qualcosina sulla progettazione e l'analisi statistica", ha spiegato Box.

Gli sperimentatori non si sentono a loro agio con esperimenti pianificati secondo criteri statistici

Negli anni Novanta, gli approcci statistici erano diventati più sofisticati. Gli algoritmi per la "progettazione ottimale degli esperimenti", ancora utilizzati nel software DOE di oggi, sono stati sviluppati per consentire agli sperimentatori di creare un piano sperimentale personalizzato, piuttosto che cercare di forzare il loro problema a un progetto "da manuale".

Tuttavia, nonostante fossero dimostrabilmente utili e (almeno inizialmente) rispondessero alle reali esigenze del settore, questi progetti non sono stati adottati su larga scala. Al contrario, un concetto chiamato piano di screening definitivo (DSD), che i ricercatori hanno scoperto mentre esploravano gli algoritmi di progettazione ottimali, ha ottenuto più successo.

Il motivo è che la progettazione ottimale non affrontava il problema principale che Box aveva individuato lavorando all'ICI: gli sperimentatori non si sentono a proprio agio con esperimenti disegnati. I piani ottimali amplificano questo disagio con un gergo tecnico complesso (l'ottimalità D cerca di massimizzare il determinante della matrice delle informazioni!) e una serie di scelte scoraggianti per la maggior parte degli scienziati e degli ingegneri.

Le barriere comportamentali all'adozione del DOE sono profondamente radicate

Un DSD, d'altra parte, è una soluzione più generale che offre a scienziati e ingegneri semplicità e immediatezza. Ho visto personalmente il valore di questi piani quando li ho utilizzati per migliorare un processo di filtrazione a membrana. Con cinque variabili e un tempo limitato sull'impianto pilota, non siamo riusciti a trovare una buona soluzione con gli approcci di progettazione esistenti. Utilizzando un DSD siamo riusciti a comprendere i comportamenti importanti in sole 15 esecuzioni, raddoppiando la produttività!

Istinto scientifico

Queste barriere comportamentali all'adozione del DOE hanno radici profonde. Nel suo blog "Apes in Lab Coats", Dennis Lendrem racconta uno studio su 69 scienziati che hanno partecipato a un recente corso estivo sul DOE. Ai ricercatori è stata fornita una simulazione di una reazione a catena della polimerasi e è stato chiesto loro di massimizzare la resa manipolando 12 variabili diverse. Com'era prevedibile, la maggior parte degli scienziati ha cercato di semplificare il problema fissando delle variabili per ridurre il numero di dimensioni. Ma ciò che è particolarmente affascinante è il modo non sistematico in cui hanno poi esplorato lo spazio delle possibilità, tendendo a concentrarsi su aree ad alta ricompensa e poi effettuando "escursioni" di lunghezza crescente verso altre regioni man mano che i rendimenti diminuivano. Come osserva Lendrem, questo assomiglia molto alle "strategie di foraggiamento delle scimmie e di altri animali … [che] si sono evolute per sfruttare risorse disomogenee".

Le migliori strategie per sfruttare l'offerta di esperimenti di grandi dimensioni e ad alta dimensionalità dell'automazione devono ancora essere sviluppate

Chiaramente c'è un grande divario tra questo approccio di foraggiamento inefficace ma istintivo e la strategia più efficiente ma meno intuitiva del disegno di esperimenti (DOE). L'ottimizzazione bayesiana (BO) potrebbe essere il compromesso che aiuta a colmare questo divario. Come altri metodi DOE, questa è una strategia basata sui dati per esplorare sistemi multidimensionali. La differenza fondamentale è che offre un feedback rapido, perché il modello viene perfezionato dopo ogni esperimento e l'algoritmo propone quindi dove guardare per avvicinarsi all'obiettivo.

La grande opportunità per BO è quindi quella di fungere da "suggeritore" basato sui dati, supportando gli scienziati che conducono esperimenti manuali. Questa partnership consente un foraggiamento scientifico istintivo in cui lo sperimentatore mantiene l'autonomia, ma con una guida statistica per attivare l'esplorazione efficiente dei sistemi multifattoriali.

Il futuro del DOE

Tuttavia, si sta già delineando uno scenario in cui nessuno di questi metodi DOE avrà senso. Quando l'automazione attiva l'esecuzione parallela di dozzine o centinaia di esecuzioni, gli approcci che si concentrano sulla massimizzazione delle informazioni ottenute da un numero piccolo di esecuzioni non si applicano più. Le migliori strategie per sfruttare l'offerta dell'automazione di esperimenti enormi e ad alta dimensionalità devono ancora essere sviluppate e deriveranno sicuramente da una stretta collaborazione tra gli sperimentatori e i ricercatori che sviluppano questi metodi. Idealmente, servono generalisti che abbiano competenze in entrambi gli ambiti.

La storia del DOE ci insegna che dovremmo seguire l'esempio di Box e ascoltare con attenzione le esigenze più urgenti dell'industria per portare innovazioni che possano avere un impatto reale.

Dennis Lendrem ha recentemente parlato di come possiamo controllare i nostri istinti scientifici di ricerca e utilizzare strumenti per una progettazione sperimentale più intelligente. Guarda il webinar su richiesta per saperne di più.

Questo articolo è stato inizialmente pubblicato su ChemistryWorld.Com.

layout

2 Column

Style

interview-body, columns-25-75, section-padding-large