Articolo
Dobbiamo costruire i dati che la chimica merita. Ecco come possiamo farlo.
di Phil Kay, JMP
Creare un archivio dedicato di dati di reazione standardizzati è un'impresa ardua, ma la ricompensa sarebbe enorme
Ho un piccolo problema con il modo in cui la comunità chimica gestisce i Dati, e questo emerge ogni volta che Vai a caccia nella letteratura. Ad esempio, cerco spesso casi di studio sull’ottimizzazione dei processi che dimostrino il valore della progettazione statistica degli esperimenti, oppure archivi di proprietà dei materiali che posso utilizzare per illustrare la potenza dell’apprendimento automatico. E spesso li trovo: vengono pubblicati sempre più studi che utilizzano i dati e sempre più autori ed editori rendono disponibili i dati associati.
Ma in realtà mettere le mani sui dati non è sempre così facile. Potrebbe essere in una tabella nell'articolo, o, più spesso, in un PDF separato. Oppure potrebbe essere in un file di foglio di calcolo, o in un formato più esotico come JavaScript Object Notation (JSON). A volte è in un file zip e potrebbe esserci del codice Python associato. Nei casi peggiori, è solo un'immagine.
L’obiettivo dovrebbe essere creare il miglior archivio dati possibile per l’IA chimica.
Per me, questa mancanza di standardizzazione è un inconveniente. Ma per la chimica è più grave perché stiamo perdendo tutti i benefici della standardizzazione. E non si tratta solo di migliorare l'efficienza e la collaborazione: gli standard ISO per le pratiche di laboratorio nel settore farmaceutico, ad esempio, sono cruciali per la sicurezza dei pazienti. Per sfruttare il potenziale dei Dati chimici, abbiamo bisogno di Descrizioni standardizzate, ma dobbiamo anche progettarle in base a ciò che vogliamo ottenere.
Fair play
Uno degli sforzi di maggior successo qui è stato nella chimica analitica, e in particolare nella cromatografia. La Allotrope Foundation, ad esempio, è una collaborazione tra organizzazioni di ricerca e aziende, inclusi fornitori di hardware concorrenti, che ha creato un formato standardizzato per i dati di chimica analitica. Descrive i parametri sperimentali, i processi e i risultati, collegandoli con i metadati su Persone, luoghi, attrezzature e studi per fornire Contesto. Più in generale, esiste l'iniziativa FAIR che promuove la reperibilità, l'accessibilità, l'interoperabilità e la riusabilità dei dati di ricerca. L’Unione Internazionale di Chimica Pura e Applicata sta ora guidando l’applicazione dei principi FAIR negli standard digitali della chimica.
Eppure, nonostante questo stato di avanzamento, l'obiettivo finale non dovrebbe essere quello di rendere equi tutti i tipi di dati chimici: questo non è né fattibile né auspicabile. Dovremmo invece concentrarci meno sui Dati stessi e più su cosa possiamo fare con essi. e dato che uno dei migliori usi che abbiamo dei dati oggi è abilitare l'intelligenza artificiale, sicuramente l'obiettivo ora dovrebbe essere quello di contribuire a creare il miglior archivio collettivo di dati possibile per l'addestramento dell'IA in chimica?
AI per tutti
I ricercatori stanno già lavorando alla creazione di tali set di dati dalla letteratura esistente, che rappresenta un'enorme miniera di dati potenziali. Un recente pre-print utilizza modelli di intelligenza artificiale visivo-linguistici per estrarre dati da figure e tabelle nei pdf, ad esempio. Tuttavia, questi set di dati saranno sempre limitati perché incompleti, soprattutto a causa dell'assenza di reazioni non riuscite.
Ciò di cui abbiamo bisogno è generare sistematicamente un dataset costruito ad hoc per alimentare la soluzione di IA che desideriamo. Questo è l'approccio del disegno di esperimenti statistici (DOE), ma su una scala molto più ampia. Avremmo bisogno di sperimentazione e analisi ad alto rendimento e completamente automatizzate per coprire in modo efficiente il vasto spazio delle possibilità. Questo approccio è digitale per progettazione, quindi tutto, dagli esperimenti ai risultati e ai metadati, sarà immediatamente disponibile nel formato strutturato e leggibile dal Computer: di cui abbiamo bisogno. I protocolli e i risultati possono essere facilmente distribuiti per trasparenza e per condividere il lavoro e i frutti. La collaborazione sarà essenziale, data la Scala della sfida.
Questo potrebbe offrire opportunità di lavoro e scientifiche lontano dagli attuali centri nevralgici della ricerca e sviluppo
Inizialmente, l'ambito dovrebbe essere stretto – probabilmente il tipo di screening delle condizioni di reazione che viene effettuato nella fase iniziale dello sviluppo farmaceutico. L'ambito può ampliarsi man mano che le capacità hardware migliorano – il lavoro stesso incentiverebbe tali innovazioni – e il modello di intelligenza artificiale diventerebbe più utile in generale.
I creatori dei dati di addestramento dell'IA in chimica dovranno essere equamente ricompensati e incentivati, e il lavoro dovrebbe anche essere condiviso in modo che più laboratori di chimica automatizzati in tutto il mondo possano contribuire. Questo potrebbe offrire opportunità di lavoro e imprenditorialità scientifica lontano dagli attuali centri nevralgici della ricerca e sviluppo in chimica e farmaceutica e fungere da catalizzatore per ulteriori innovazioni.
Per un proprietario, la scelta ovvia potrebbe sembrare quella di affidarsi a una grande azienda tecnologica ben fornita di risorse. Ma è difficile bilanciare le ambizioni commerciali e la trasparenza. Inizialmente, Google DeepMind non ha reso pubblico il codice del suo ultimo modello di previsione della struttura delle proteine, Alphafold3, apparentemente per proteggere i suoi interessi commerciali; infatti, quando il codice è stato infine rilasciato, sono rapidamente apparse copie open-source. Un Migliore modello potrebbe essere il finanziamento da un consorzio di aziende farmaceutiche e chimiche che avrebbero l'incentivo di ottenere l'accesso per uso commerciale. I finanziamenti pubblici per la ricerca dovrebbero essere Inclusi, garantendo che siano _Apri a ricercatori accademici e di enti senza scopo di lucro.
Qualche anno fa ho visitato Basecamp Research, un'azienda biotecnologica a Londra. Il loro obiettivo è creare un set di dati genetici di alta qualità per addestrare la prossima generazione di modelli di intelligenza artificiale per risolvere problemi biologici. Parte del successo di Basecamp è dovuto alle sue partnership con scienziati e governi di tutto il mondo che le consentono di raccogliere campioni fisici di biodiversità utilizzati per costruire il dataset. Il loro modello assicura una condivisione equa e giusta dei benefici e incentiva ricompense a lungo termine, inclusa la costruzione della base di competenze e delle strutture per la partecipazione alla bioeconomia.
Quello che sto proponendo qui è un lavoro enorme. Non accadrà senza un'ampia comprensione della necessità di questi dati. Penso che più chimici lo capirebbero intrinsecamente se almeno sapessero come costruire modelli dai dati su piccola scala, e questo white paper di JMP è un ottimo punto di partenza per utilizzare i dati a supporto dell'innovazione. Gli stessi principi che alimentano questi esempi in diversi settori e aziende potrebbero essere utilizzati per creare uno strumento che sarebbe rivoluzionario per i chimici di tutto il mondo.