Articolo

La scienza dei dati è uno sport di squadra

di Alyson Wilson, professoressa di statistica e Associate Vice Chancellor for National Security and Special Research Initiatives presso la North Carolina State University

I "dati" sono ovunque: non possiamo accendere la televisione senza vedere una pubblicità su come i dati trasformeranno la nostra attività o risolveranno un mistero dell'assistenza sanitaria. Circa un decennio fa, era comune dire che "un data scientist è qualcuno che è più bravo nelle statistiche di qualsiasi ingegnere del software e più bravo nell'ingegneria del software di qualsiasi statistico". Nel corso del tempo è emersa una definizione più sfumata, illustrata dal ciclo di vita della scienza dei dati. La scienza dei dati è l'insieme di competenze che operano lungo tutto il ciclo che va dalla generazione, raccolta ed elaborazione dei dati, all'archiviazione e alla gestione dei dati, fino all'analisi, alla visualizzazione e all'interpretazione degli stessi. Molte discipline sono coinvolte in questo insieme di competenze e, quando la scienza dei dati viene applicata a un problema di dominio specifico, il team diventa più ampio.

Come statistica, ho ricevuto una formazione che ha più a che vedere con la parte finale del ciclo di vita dei dati. Dopo la specializzazione, ho iniziato a lavorare per un'azienda di cinque persone a El Paso, in Texas, chiamata Cowboy Programming Resources e incaricata di aiutare l'esercito a valutare sistemi di artiglieria per la difesa aerea nuovi o aggiornati. Il nostro obiettivo era capire con quanta facilità i soldati potessero sfruttare il sistema per compiere le loro missioni. Da statistica, le domande che mi sono trovata ad affrontare erano diverse e in un certo senso ben più complesse delle applicazioni biomediche che avevo analizzato a scuola.

Quello che volevamo capire era come i sistemi di artiglieria per la difesa aerea avrebbero funzionato in combattimento, cosa molto difficile da prevedere, perché i risultati variano in base alle reazioni dei soldati e alle dinamiche di ogni singola unità. Spesso e volentieri mi sentivo come se i dati che avevo a disposizione fossero contemporaneamente troppi e non abbastanza. A volte i nostri test duravano anche sei settimane, con 400 soldati sul campo. Pur avendo accesso a ogni singolo messaggio radio scambiato all'interno dei battaglioni, non potevamo testare scenari missione davvero realistici, con tutte le combinazioni di fattori e condizioni possibili. Potevo anche analizzare all'infinito ogni tasto premuto, ma la cosa più importante da simulare era il risultato finale, cioè come ogni unità avrebbe svolto determinate azioni chiave sotto il fuoco nemico.

La scienza dei dati è uno sport di squadra. Man mano che i dati aumentano in volume, velocità e veridicità, risolvere problemi complessi non è più possibile senza decompartimentalizzarli.

Valutare l'andamento delle missioni ha ampliato la mia comprensione e il mio modo di pensare alle statistiche. Fino ad allora, le avevo sempre considerate in un contesto sperimentale, per cui si avanzava un'ipotesi scientifica, si pianificava la raccolta dati, li si raccoglieva, analizzava e si traevano le relative conclusioni. Per quanto la procedura di base fosse la stessa, ogni sua parte veniva portata al limite. Volevo valutare il rendimento delle missioni, ma non ero in grado di testarlo. Avevo a disposizione dei dati, che però non sempre riguardavano esattamente ciò che volevo sapere. Cominciai a interessarmi a domande che richiedevano di mettere insieme tante informazioni diverse per avere una risposta.

In più di un senso, la mia era già scienza dei dati, 20 anni prima che il termine acquisisse popolarità. Trovo molto utile pensare alla scienza dei dati in termini di 4 V: varietà, volume, velocità e veridicità. All'epoca lavoravo su metodi statistici che si occupavano della varietà, cioè di come combinare dati eterogenei per risolvere problemi. Nella scienza dei dati, però, gli statistici operano anche sul volume (come usare set di dati sempre più grandi), velocità (come trarre inferenze dai flussi di dati) e veridicità (come usare dati disorganizzati che potrebbero essere stati raccolti per rispondere ad altri problemi).

Spesso mi trovo a lavorare con team interdisciplinari per rispondere a quelle domande, integrando esperienze e competenze diverse per risolvere problemi complessi. Come statistica, non posso sapere di mio cosa comportino le missioni dell'esercito, o come misurare la degradazione dell'equipaggiamento, o perché un radar si guasta, ma lavorando in un team multidisciplinare mi sono trovata a collaborare con ufficiali militari, scienziati e ingegneri dei materiali per capire come funzionano i diversi componenti di ogni missione.

Dopo l'esperienza alla Cowboy Programming mi sono trasferita al Los Alamos National Laboratory, dove ho trascorso gran parte del mio tempo a valutare l'affidabilità delle riserve nucleari statunitensi. Gli Stati Uniti hanno interrotto i test di funzionamento delle armi nucleari a metà anni novanta, ma i laboratori del paese devono comunque fornire stime annuali sull'affidabilità dell'arsenale. Da un lato, l'interruzione dei test ha fatto scendere la nostra dimensione campionaria a 0. Dall'altro, però, avevamo parecchie informazioni: dati dei test effettuati in precedenza, modelli simulatori, test di funzionamento dei subcomponenti, conoscenze degli esperti e test di degradazione. Ancora una volta, fare ricorso a un team multidisciplinare ha messo insieme fonti di informazioni diverse per trovare risposta alle domande che cercava.

Oggi lavoro alla North Carolina State University come ricercatrice capo del laboratorio di scienza analitica (LAS). LAS è una partnership orientata a uno specifico obiettivo tra ambito universitario, industria e governo, che punta a risolvere problemi di interesse per la community dell'intelligence (IC). A mo' di scherzo, spesso ci diciamo che ogni azienda del mondo vorrebbe sapere come usare i dati per ottenere un vantaggio strategico: ovviamente, anche l'IC ha un interesse in quel senso. L'esistenza di LAS si deve al fatto che l'IC è stata in grado di riconoscere che gran parte dell'innovazione nel campo dei big data derivava dalla capacità delle aziende di fare le domande giuste. LAS si impegna a instaurare partnership in grado di combinare le ricerche universitarie con il know-how di implementazione dei vari settori e i problemi complessi legati all'intelligence e alla sicurezza nazionale. I problemi su cui ci troviamo a lavorare sono molto diversi: come assegnare priorità ai dati, quindi come trovare le registrazioni necessarie tra i trilioni di registri disponibili; l'integrità dell'apprendimento automatico, cioè come mantenere i flussi di lavoro in scala; la collaborazione tra uomo e macchina, quindi come rendere il proprio computer un partner più che un semplice strumento. SAS è partner di lungo corso di LAS, e al momento il nostro lavoro è incentrato sull'automatizzare l'analisi di un corpus di dati con mezzi eterogenei, con l'obiettivo di sviluppare una pipeline di modellazione flessibile e adattabile alle diverse esigenze degli analisti IC.

I problemi su cui lavoriamo al LAS non potrebbero essere risolti senza una collaborazione multidisciplinare. I partecipanti non tradizionali ci aiutano a dare un senso ai dati e alle informazioni rilevanti per la soluzione di questi problemi. Ad esempio, uno dei nostri progetti LAS, il "Social Sifter", identifica gli account chiave dei social media che fanno parte di uno sforzo coordinato per diffondere disinformazione. Esperti di lingue, marketing, psicologia e statistica hanno contribuito a creare l'interfaccia e gli algoritmi, che possono setacciare rapidamente i volumi di informazioni online per trovare questi diffusori di disinformazione.

La scienza dei dati è uno sport di squadra. Man mano che i dati aumentano in volume, velocità e precisione, risolvere problemi complessi non è più possibile senza decompartimentalizzarli. Affidarsi a team multidisciplinari è fondamentale per trasformare i dati in informazioni e gli statistici svolgono un ruolo chiave in questo senso.