Artikel
Wir müssen die Daten schaffen, die die Chemie verdient. Und so können wir es erreichen.
von Phil Kay, JMP
Ein eigens entwickeltes Repository für standardisierte Reaktionsdaten zu schaffen, ist eine große Herausforderung – doch der mögliche Nutzen wäre immens
Ich habe ein grundlegendes Problem mit dem Umgang der Chemie-Community mit Daten – und es zeigt sich jedes Mal, wenn ich in der Literatur nach Informationen suche. Zum Beispiel suche ich oft nach Fallstudien zur Prozessoptimierung, die den Nutzen der statistischen Versuchsplanung belegen, oder nach Repositories mit Materialeigenschaften, die sich zur Veranschaulichung der Leistungsfähigkeit maschinellen Lernens eignen. Und tatsächlich werde ich immer häufiger fündig: Es werden zunehmend Studien mit datengetriebenen Methoden veröffentlicht, und immer mehr Autoren und Herausgeber stellen die zugehörigen Daten zur Verfügung.
Der tatsächliche Zugriff auf die Daten gestaltet sich jedoch nicht immer einfach. Sie könnten sich in einer Tabelle im Artikel befinden, oder noch häufiger in einer separaten PDF-Datei. Oder sie sind in einer Tabellenkalkulationsdatei oder in einem noch exotischeren Format wie JavaScript Object Notation (JSON). Manchmal befinden sie sich in einer ZIP-Datei, gegebenenfalls ergänzt durch zugehörigen Python-Code. Im ungünstigsten Fall sind die Daten nur als Bild verfügbar.
Das Ziel sollte es sein, das bestmögliche Datenrepository für Chemie-KI zu schaffen.
Für mich ist dieser Mangel an Standardisierung ein Ärgernis. Für die Chemie jedoch ist es weitaus gravierender, da wir auf sämtliche Vorteile der Standardisierung verzichten müssen. Diese umfassen nicht nur Effizienzsteigerung und bessere Zusammenarbeit – ISO-Normen für Laborpraktiken in der Pharmaindustrie sind beispielsweise entscheidend für die Patientensicherheit. Um das Potenzial chemischer Daten voll auszuschöpfen, brauchen wir standardisierte Beschreibungen. Diese müssen jedoch gezielt im Hinblick auf die angestrebten Ziele konzipiert werden.
Fair Play
Eine der bislang erfolgreichsten Initiativen in diesem Bereich stammt aus der analytischen Chemie, insbesondere der Chromatographie. Die Allotrope Foundation ist ein Beispiel für eine Kooperation zwischen Forschungseinrichtungen und Unternehmen – einschließlich konkurrierender Gerätehersteller –, die ein standardisiertes Format für analytische Chemiedaten entwickelt hat. Diese Format beschreibt die experimentellen Parameter, Prozesse und Ergebnisse und verknüpft sie mit Metadaten zu Personen, Orten, Geräten und Studien, um den Kontext nachvollziehbar zu machen. Darüber hinaus gibt es die FAIR-Initiative, die das Ziel verfolgt, Forschungsdaten auffindbar (Findable), zugänglich (Accessible), interoperabel und wiederverwendbar (Reusable) zu machen. Die International Union for Pure and Applied Chemistry (IUPAC) übernimmt dabei eine führende Rolle bei der Umsetzung der FAIR-Prinzipien in den digitalen Standards der Chemie.
Trotz dieser Fortschritte sollte das ultimative Ziel jedoch nicht darin bestehen, sämtliche Arten chemischer Daten FAIR zu gestalten – das ist weder machbar noch wünschenswert. Stattdessen sollte der Fokus weniger auf den Daten selbst liegen, sondern vielmehr auf deren Nutzungspotenzial. Und angesichts der Tatsache, dass eine der vielversprechendsten Anwendungen heute in der Nutzung von Daten zur Entwicklung künstlicher Intelligenz liegt, sollte das Ziel jetzt sein, das bestmögliche kollektive Datenrepository für das Training chemiebezogener KI-Systeme zu schaffen.
KI für alle
Forschende arbeiten bereits daran, solche Datensätze aus der vorhandenen Fachliteratur zu generieren – eine potenziell äußerst ergiebige Datenquelle. Ein kürzlich veröffentlichter Preprint beispielsweise verwendet Vision-Language-KI-Modelle, um Daten aus Abbildungen und Tabellen in PDF-Dokumenten zu extrahieren. Dennoch bleiben solche Datensätze zwangsläufig unvollständig – nicht zuletzt aufgrund des Fehlens dokumentierter Fehlversuche.
Was wir benötigen, ist die systematische Generierung eines zweckgebundenen Datensatzes, um die gewünschte KI-Lösung zu speisen. Dies entspricht dem Ansatz der statistischen Versuchsplanung (DOE), jedoch in deutlich größerem Maßstab. Um den riesigen Raum der Möglichkeiten effizient abzudecken, bräuchten wir Experimente und Analysen mit hohem Durchsatz und voller Automatisierung. Dieser Ansatz ist von Grund auf digital konzipiert – sämtliche Experimente, Ergebnisse und Metadaten liegen unmittelbar in strukturierter, maschinenlesbarer Form vor. Protokolle und Ergebnisse können problemlos mit anderen geteilt werden, um Transparenz zu fördern und sowohl die geleistete Arbeit als auch deren Ergebnisse gemeinsam zu nutzen. Angesichts der Dimension der Herausforderung wird Zusammenarbeit von zentraler Bedeutung sein.
Dies könnte Arbeitsplätze und wissenschaftliche Möglichkeiten abseits der aktuellen Hotspots von Forschung und Entwicklung bieten
Zunächst müsste der Umfang jedoch eng gefasst sein – vermutlich auf das Screening von Reaktionsbedingungen beschränkt, wie es in der frühen Phase der pharmazeutischen Entwicklung üblich ist. Mit zunehmender Leistungsfähigkeit der Hardware kann der Anwendungsbereich erweitert werden – die Arbeit selbst würde solche Innovationen zusätzlich fördern – und das KI-Modell würde zunehmend allgemeiner einsetzbar.
Die Ersteller von Trainingsdaten für chemiebezogene KI-Modelle sollten angemessen vergütet und zur Mitwirkung angeregt werden. Zudem sollte die Verteilung der Arbeit so gestaltet sein, dass mehrere automatisierte Chemielabore weltweit einen Beitrag leisten können. Dadurch könnten neue Arbeitsplätze und unternehmerische Perspektiven im wissenschaftlichen Bereich entstehen – jenseits der derzeitigen Hotspots der chemischen und pharmazeutischen F&E – und ein Impuls für zusätzliche Innovationen gesetzt werden.
Ein finanzstarkes Unternehmen aus dem Bereich der großen Technologieanbieter erscheint zunächst als offensichtlicher Kandidat für die Rolle des Eigentümers. Doch die Balance zwischen kommerziellen Interessen und Transparenz ist schwer zu erreichen. Google DeepMind hat den Code seines neuesten Modells zur Vorhersage von Proteinstrukturen, Alphafold3, zunächst nicht offengelegt – offenbar um seine kommerziellen Interessen zu schützen – und tatsächlich erschienen schnell Open-Source-Kopien, als der Code schließlich veröffentlicht wurde. Ein tragfähigeres Modell wäre möglicherweise eine Finanzierung durch ein Konsortium von Unternehmen aus der Pharma- und Chemiebranche, die durch den Zugang zur kommerziellen Nutzung einen direkten Anreiz zur Beteiligung hätten. Auch öffentliche Forschungsgelder sollten eingebunden werden, um einen offenen Zugang für akademische und nicht-kommerzielle Forschung zu gewährleisten.
Vor einigen Jahren besuchte ich Basecamp Research, ein Biotechnologieunternehmen in London. Ihr Ziel ist es, einen qualitativ hochwertigen genetischen Datensatz zu erstellen, um die nächste Generation von KI-Modellen zur Lösung biologischer Probleme zu trainieren. Ein Teil des Erfolgs von Basecamp beruht auf Partnerschaften mit Wissenschaftlern und Regierungen weltweit, die es ermöglichen, physische Proben der Biodiversität zu sammeln, die zur Erstellung des Datensatzes verwendet werden. Ihr Modell stellt eine faire und gerechte Nutzenverteilung sicher und schafft Anreize für langfristige Vorteile – darunter der Aufbau von Fachkompetenz und Infrastruktur zur Beteiligung an der Bioökonomie.
Was ich hier vorschlage, ist ein äußerst umfangreiches Vorhaben. Es wird nicht ohne ein breites Verständnis für die Notwendigkeit dieser Daten geschehen. Ich denke, mehr Chemiker würden den Ansatz intuitiv verstehen, wenn sie zumindest wüssten, wie man im kleineren Maßstab Modelle aus Daten erstellt – und dieses Whitepaper von JMP ist ein hervorragender Einstiegspunkt zum Thema Datennutzung zur Förderung von Innovationen. Die gleichen Prinzipien, die in diesen Beispielen aus verschiedenen Branchen und Unternehmen zum Einsatz kommen, könnten verwendet werden, um ein Werkzeug zu entwickeln, das für Chemiker weltweit transformativ wäre.