Artículo

Necesitamos construir los datos que la química merece. Así es como podemos hacerlo.

por Phil Kay, JMP

Área de laboratorio

Phil Kay

Phil Kay es el gerente global de habilitación técnica de JMP Statistical Discovery, una subsidiaria de SAS. Su trabajo consiste en comprender los retos de la ciencia y la ingeniería, y ofrecer orientación sobre soluciones de análisis de datos para organizaciones industriales de todo el mundo.

Anteriormente, Kay fue un científico clave en el desarrollo de numerosos procesos para la fabricación de colorantes para impresión digital en FujiFilm Imaging Colorants. Tiene un master en estadística aplicada con una disertación sobre diseño de experimentos. También tiene una maestría y un doctorado en química.

Kay es miembro de la Sociedad Real de Estadística, químico colegiado y miembro del comité del grupo de química y tecnología de procesos de la Sociedad Real de Química.

Le encanta mostrar a la gente cómo el análisis de datos permite mejorar la ciencia. Siga a Phil Kay, evangelista de análisis de datos, en LinkedIn.

Crear un repositorio diseñado específicamente para datos de reacciones estandarizados es una tarea ardua, pero la recompensa sería enorme

Tengo un pequeño problema con la forma en que la comunidad química maneja los datos:, y surge cada vez que voy a revisar la literatura. Por ejemplo, a menudo busco estudios de caso de optimización de procesos que muestren el valor del diseño estadístico de experimentos, o repositorios de propiedades de materiales que pueda utilizar para ilustrar la potencia del aprendizaje automático. Y muchas veces los encuentro: cada vez hay más estudios que usan datos, y más autores y editoriales comparten esos datos.

Pero conseguir los datos no siempre es tan sencillo. Podría estar en una tabla en el artículo, o más a menudo en un PDF separado. O podría estar en un archivo de hoja de cálculo, o en un formato más exótico como JavaScript Object Notation (JSON). A veces está en un archivo zip y podría haber un código Python asociado. En los peores casos, es solo una imagen.

El objetivo debe ser crear el mejor repositorio de datos posible para la IA en química.

Para mí, esta falta de estandarización es un inconveniente. Pero para la química, es más serio porque nos estamos perdiendo todos los beneficios de la estandarización. Y eso no solo mejoraría la eficiencia y la colaboración: las normas ISO para las prácticas de laboratorio en el sector farmacéutico, por ejemplo, son cruciales para la seguridad del paciente. Para aprovechar el potencial de los datos:, necesitamos descripciones:, pero también debemos diseñarlas en función de lo que queremos lograr.

Juego limpio

Uno de los esfuerzos más exitosos aquí ha sido en la química analítica, y especialmente en la cromatografía. La Fundación Allotrope, por ejemplo, es una colaboración entre diferentes organizaciones de investigación y empresas, incluyendo proveedores de hardware que compiten entre sí. Juntos han creado un formato estándar para organizar los datos de química analítica. Describe los parámetros, procesos y resultados experimentales, y los conecta con metadatos sobre gente, lugares, equipos y estudios para el contexto. En términos generales, está la iniciativa FAIR, que busca que los datos de investigación sean fáciles de encontrar, acceder, usar juntos y reutilizar. La Unión Internacional de Química Pura y Aplicada está liderando ahora la aplicación de los principios FAIR en los estándares digitales de la química.

Sin embargo, a pesar de este progreso, el objetivo final no debería ser que todos los tipos de datos de química sean FAIR: esto no es factible ni deseable. En su lugar, deberíamos centrarnos menos en los datos y más en lo que podemos hacer con ellos. Y dado que uno de los mejores usos que tenemos hoy para los datos es habilitar la IA, seguramente el objetivo ahora debería ser ayudar a crear el mejor repositorio de datos colectivos posible para entrenar la IA en química.

IA para todos.

Los investigadores ya están trabajando en la construcción de estos conjuntos de datos a partir de la literatura existente, lo que representa una enorme mina de datos potencial. Por ejemplo, un preprint reciente utiliza modelos de IA de visión-lenguaje para extraer datos de figuras y tablas en archivos PDF. Sin embargo, esos conjuntos de datos siempre serán limitados porque están incompletos, sobre todo por la ausencia de reacciones con error.

Lo que necesitamos es generar sistemáticamente un conjunto de datos especialmente diseñado para alimentar la solución de IA que queremos. Este es el enfoque del diseño de experimentos estadístico (DOE), pero a una escala mucho mayor. Necesitaría experimentación y análisis de alto rendimiento, totalmente automatizados para cubrir eficientemente el vasto espacio de posibilidades. Este enfoque es digital desde el principio, por eso todo, desde los experimentos hasta los resultados y la información adicional, estará en un formato organizado y que las máquinas pueden entender de inmediato. Los protocolos y los resultados se pueden distribuir fácilmente para la transparencia y para la contribución del trabajo y sus frutos. Trabajar juntos será fundamental, porque el reto es muy grande.

Esto podría crear trabajos y oportunidades científicas en lugares diferentes a los principales centros de investigación I+D y desarrollos actuales.

Al principio, el alcance debería ser limitado, – probablemente enfocándose en el tipo de pruebas para encontrar las mejores condiciones de reacción que se hacen en la primera etapa del desarrollo farmacéutico. El alcance puede ampliarse a medida que mejoren las capacidades del hardware – el trabajo en sí mismo también incentivaría esas innovaciones – y el modelo de IA se volvería más útil en general.

Quienes creen los datos para entrenar la inteligencia artificial en química deberán recibir una buena recompensa y motivación. Además, el trabajo debería organizarse de forma que muchos laboratorios de química automatizados de todo el mundo puedan colaborar. Esto podría proporcionar oportunidades de empleo y de emprendimiento científico lejos de los actuales focos de I+D en química y farmacéutica, y ser un catalizador para más innovación.

Una «gran empresa tecnológica» con buenos recursos podría parecer la elección obvia como propietaria. Pero resulta difícil equilibrar las ambiciones comerciales y la transparencia. Google DeepMind inicialmente no reveló el código de su último modelo de predicción de la Estructura de Proteínas, Alphafold3, aparentemente para proteger sus intereses comerciales, y de hecho, rápidamente aparecieron copias de código abierto cuando finalmente se publicó el código. Un mejor modelo podría ser la financiación de un consorcio de empresas farmacéuticas y químicas que tendrían el incentivo de acceso para uso comercial. La financiación pública de la investigación debe estar Incluido, asegurando que esté abierto para investigadores académicos y organizaciones sin ánimo de lucro.

Hace unos años visité Basecamp Research, una empresa biotecnológica en Londres. Su objetivo es crear un conjunto de datos genéticos de alta calidad para entrenar a la siguiente generación de modelos de IA para resolver problemas biológicos. Parte del éxito de Basecamp se debe a sus colaboraciones con científicos y gobiernos de todo el mundo, que le permiten recolectar las muestras físicas de biodiversidad utilizadas para construir el conjunto de datos. Su modelo asegura una distribución justa y equitativa de los beneficios y incentiva recompensas a largo plazo, incluyendo el desarrollo de la base de habilidades y las instalaciones para la participación en la bioeconomía.

Lo que estoy proponiendo aquí es un trabajo inmenso. Esto no va a suceder sin una amplia comprensión de la necesidad de estos datos. Creo que más químicos lo comprenderían intrínsecamente si al menos supieran cómo construir modelos a partir de datos a menor escala, y este documento técnico de JMP es un excelente punto de partida sobre utilizar datos para fomentar la innovación. Los mismos principios que potencian esos ejemplos en diferentes sectores y Empresas podrían utilizarse para construir una herramienta que fuera transformadora para los químicos de todo el mundo.