Article
Nous devons bâtir les données que la chimie mérite. Voici comment y parvenir.
par Phil Kay, JMP
Créer un référentiel dédié de données de réaction standardisées est un défi de taille, mais les bénéfices seraient immenses.
Je vois une limite dans la façon dont la communauté de la chimie gère les données, et cela revient chaque fois que je me plonge dans la littérature scientifique.Par exemple, je cherche souvent des études de cas sur l’optimisation de procédés mettant en évidence l’intérêt des plans d’expériences statistiques, ou des référentiels de propriétés des matériaux que je peux utiliser pour illustrer la puissance du machine learning.Et j’en trouve régulièrement : de plus en plus d'études basées sur les données sont publiées, t un nombre croissant d'auteurs et d'éditeurs mettent à disposition les données associées.
Mais accéder réellement aux données n’est pas toujours si simple.Elles peuvent se trouver dans un tableau au sein de l’article, ou plus souvent dans un fichier PDF séparé. Ou elles peuvent être contenues dans un fichier de feuille de calcul, ou sous un format plus exotique tel que JavaScript Object Notation (JSON). Il arrive aussi qu’elles soient compressées dans un fichier zip, accompagnées d'un code Python associé. Et dans le pire des cas, les données ne sont disponibles que sous forme d’image.
L'objectif devrait être de créer le meilleur référentiel de données possible pour l'IA en chimie.
Pour moi, ce manque de standardisation est un inconvénient. Mais pour la chimie, c’est plus grave car nous passons à côté de tous les bénéfices qu’apporte une approche standardisée.Et il ne s’agit pas seulement de gagner en efficacité ou de favoriser la collaboration : les normes ISO encadrant les pratiques de laboratoire dans le secteur pharmaceutique, par exemple, sont essentielles à la sécurité des patients. Pour exploiter le potentiel des données de chimie, nous avons besoin de descriptions standardisées, mais nous devons également les concevoir en fonction de ce que nous voulons accomplir.
Fair-play
L’un des efforts les plus aboutis en la matière concerne la chimie analytique, et plus particulièrement la chromatographie. L'Allotrope Foundation, par exemple, est une collaboration entre des organismes de recherche et des entreprises, y compris des fournisseurs d'équipements concurrents, qui a créé un format standardisé pour les données de chimie analytique. Il décrit les paramètres expérimentaux, les procédés et les résultats, et les relie à des métadonnées sur les personnes, les lieux, les équipements et les études, afin de fournir le contexte nécessaire.Plus généralement, l’initiative FAIR promeut une gestion des données de recherche visant à les rendre Faciles à trouver, Accessibles, Interopérables et Réutilisables.L'Union internationale de chimie pure et appliquée est désormais à la tête de l'application des principes Fair dans les normes numériques de la chimie.
Pourtant, malgré cet avancement, l'objectif ultime ne devrait pas être de rendre tous les types de données de chimie Fair. Cela ne serait ni réaliste, ni souhaitable. Au lieu de nous concentrer uniquement sur les données elles-mêmes, nous devrions accorder davantage d’attention à ce qu’il est possible d’en faire.Et puisqu’aujourd’hui l’un des usages les plus prometteurs des données est de permettre le développement de l’intelligence artificielle, ne devrions-nous pas viser, désormais, à construire le meilleur référentiel collectif possible pour entraîner des modèles d’IA en chimie ?
L'IA pour tous
Les chercheurs travaillent déjà à constituer de tels ensembles de données à partir de la littérature existante, qui représente un immense gisement de données potentielles. Une prépublication récente, par exemple, utilise des modèles d'IA vision-langage pour extraire des données de figures et de tableaux dans des PDF. Mais ces ensembles de données resteront toujours limités parce qu'ils sont incomplets, notamment en raison de l'absence de réactions d'échec.
Ce dont nous avons besoin, c’est de générer de manière systématique un jeu de données conçu spécifiquement pour alimenter la solution d’IA que nous visons.C’est l’approche des plans d’expériences (DOE), mais à une toute autre échelle.Il faudrait des expérimentations et analyses entièrement automatisées, à haut débit, pour explorer efficacement l’immensité de l’espace des possibles.Cette approche est numérique par conception : les expériences, les résultats et les métadonnées seront donc immédiatement disponibles sous une forme structurée et lisible par machine.Les protocoles et les résultats peuvent être facilement partagés, à la fois pour garantir la transparence et pour mutualiser les efforts comme les bénéfices.La collaboration sera essentielle, compte tenu de l'ampleur du défi.
Cela pourrait offrir des opportunités d’emploi et de recherche scientifique en dehors des pôles traditionnels de R&D.
Dans un premier temps, le champ d’application devrait rester limité : probablement au criblage des conditions de réaction, tel qu’il est pratiqué dans les phases précoces du développement pharmaceutique.Ce périmètre pourrait s’élargir au fil des progrès en matière d’équipements — d’autant que le travail mené créerait lui-même un levier pour stimuler ces innovations.Parallèlement, le modèle d’IA gagnerait en utilité et en portée générale.
Les créateurs de jeux de données pour l'entraînement de l’IA en chimie devront être justement valorisés et encouragés. Le travail devrait également être partagé de manière à permettre la contribution de multiples laboratoires automatisés à travers le monde. Cela ouvrirait la voie à de nouvelles opportunités, tant professionnelles que scientifiques, en dehors des pôles traditionnels de recherche en chimie et en pharmacie, et pourrait devenir un véritable catalyseur d’innovation.
Une entreprise technologique bien dotée en ressources pourrait sembler être un propriétaire évident pour ce type d’initiative. Mais il est difficile d'équilibrer les ambitions commerciales et la transparence. Google DeepMind, par exemple, n’a initialement pas divulgué le code source de sa dernière version du modèle de prédiction de structures protéiques, AlphaFold3 (apparemment pour protéger ses intérêts commerciaux) et des versions open source ont rapidement vu le jour dès la publication du code. Un modèle plus équilibré pourrait reposer sur un consortium d’entreprises pharmaceutiques et chimiques, motivé par un accès privilégié à des fins commerciales.Un financement public devrait également être intégré, afin de garantir l’ouverture des données aux chercheurs universitaires et aux organisations à but non lucratif.
Il y a quelques années, je me suis rendu chez Basecamp Research, une entreprise de biotechnologie à Londres. Son objectif est de créer un ensemble de données génétiques de haute qualité pour former la prochaine génération de modèles d'IA destinés à résoudre des problématiques biologiques.Une part importante de leur réussite repose sur des partenariats avec des scientifiques et des gouvernements du monde entier, qui leur permettent de collecter les échantillons biologiques servant à constituer leur base de données. Leur modèle garantit un partage équitable des bénéfices et des incitations sur le long terme, notamment via le développement des compétences et des infrastructures locales nécessaires à la participation à la bioéconomie.
Ce que je propose ici représente un travail colossal. Et il ne pourra se concrétiser sans une prise de conscience globale de l’importance de disposer de ces données.Je suis convaincu que davantage de chimistes comprendraient intuitivement cet enjeu s’ils savaient comment construire des modèles à partir de données, même à petite échelle. Ce livre blanc de JMP constitue un excellent point de départ pour explorer comment exploiter les données pour soutenir l'innovation. Les principes illustrés dans ces exemples, applicables à divers secteurs et entreprises, pourraient également servir de fondation à un outil capable de transformer en profondeur le travail des chimistes, partout dans le monde.