ARTÍCULO

Los diseños estadísticos son las herramientas que necesita para superar sus instintos de búsqueda de datos

por Phil Kay, JMP

Dark data viz scatterplot hr

Phil Kay

Phil Kay es el gerente global de habilitación técnica de JMP Statistical Discovery, una subsidiaria de SAS. Su trabajo consiste en comprender los retos de la ciencia y la ingeniería, y ofrecer orientación sobre soluciones de análisis de datos para organizaciones industriales de todo el mundo.

Anteriormente, Kay fue un científico clave en el desarrollo de numerosos procesos para la fabricación de colorantes para impresión digital en FujiFilm Imaging Colorants. Tiene un master en estadística aplicada con una disertación sobre diseño de experimentos. También tiene una maestría y un doctorado en química.

Kay es miembro de la Sociedad Real de Estadística, químico colegiado y miembro del comité del grupo de química y tecnología de procesos de la Sociedad Real de Química.

Le encanta mostrar a la gente cómo el análisis de datos permite mejorar la ciencia. Siga a Phil Kay, evangelista de análisis de datos, en LinkedIn.

Tu instinto de cazador/recolector evita que resuelvas problemas

La estadística tiene un problema con la gente. Y esa gente son los científicos. A pesar de todo el éxito que ha tenido el diseño estadístico de experimentos (DOE) para resolver problemas en la industria, muchos científicos e ingenieros aún no lo utilizan y, en cambio, pierden tiempo en métodos ineficientes e ineficaces. Es sumamente frustrante. Pero puede que innovaciones como la experimentación automatizada y la optimización bayesiana estén a punto de cambiar las cosas.

El motivo por el que los científicos no utilizan el DOE tiene que ver en parte con el conocimiento, pero también porque requiere una forma de pensar que puede contradecir los instintos de un científico. Por lo tanto, las innovaciones más eficaces en el DOE proceden de quienes entendieron esta tensión y fueron capaces de lograr un equilibrio. Reflexionar sobre estos logros nos ayuda a identificar dónde surgirán las próximas innovaciones.

Pensar de forma diferente

Uno de los innovadores más importantes del siglo XX en la resolución de problemas basada en datos fue George Box, quien no era partidario de la teoría propiamente dicha. Él prefería una herramienta útil en líneas generales antes que una solución óptima local y comparaba este enfoque con la capacidad de la mano humana para realizar muchas tareas diferentes.

Estas opiniones tenían su base en los antecedentes de Box en las ciencias experimentales. Comenzó como químico y descubrió los principios tradicionales de diseño estadístico mientras trabajaba en la Estación Experimental de Defensa Química en Porton Down durante la Segunda Guerra Mundial. En ICI Dyestuffs, en la década de 1950, desarrolló el método de la superficie de respuesta que se utilizaría ampliamente para la optimización en las industrias de procesos en general. Su enfoque práctico tuvo éxito porque se centró en ayudar a químicos reales a resolver problemas reales: “Tenía que conocer los detalles de los procesos [...], subía y bajaba escaleras, hablaba y discutía a diario con el personal técnico y los trabajadores de procesos, y les enseñaba un poco sobre diseño y análisis estadístico”, explicó Box.

Los experimentadores se sienten incómodos con los experimentos diseñados estadísticamente

Para la década de 1990, los enfoques estadísticos se habían vuelto más sofisticados. Los algoritmos para el “diseño óptimo de experimentos”, que todavía se utilizan en el software de DOE en la actualidad, se desarrollaron para que los experimentadores puedan crear un plan experimental personalizado, en lugar de intentar que su problema encaje en un diseño tradicional.

Sin embargo, a pesar de ser claramente útiles y de que (al menos al principio) abordaban necesidades reales en la industria, estos diseños no se adoptaron ampliamente. Por el contrario, un concepto denominado “diseño de cribado definitivos” (DSD), con el que los investigadores se toparon mientras exploraban algoritmos de diseño óptimo, tuvo mucho más éxito.

Esto se debe a que el diseño óptimo no abordaba el problema clave que Box había identificado mientras trabajaba en ICI: los experimentadores no se sienten cómodos con los experimentos diseñados estadísticamente. Los diseños óptimos solo aumentan esta incomodidad con la compleja jerga técnica (el diseño D-óptimo busca maximizar el determinante de la matriz de información) y las diversas opciones que resultan desalentadoras para la mayoría de los científicos e ingenieros.

Las barreras de comportamiento para adoptar el DOE están muy arraigadas

Por otro lado, un DSD es una solución más general que proporciona a los científicos e ingenieros simplicidad e inmediatez. Yo mismo vi el valor de estos diseños cuando los usé para mejorar un proceso de filtración por membrana. Con cinco variables y tiempo limitado en la planta piloto, no pudimos encontrar una buena solución mediante los enfoques de diseño existentes. Gracias al DSD, pudimos comprender los comportamientos importantes en tan solo 15 ejecuciones ¡y duplicamos la productividad!

Cazadores recolectores de la ciencia

Estas barreras de comportamiento para adoptar el DOE están muy arraigadas. En su blog “Apes in Lab Coats”, Dennis Lendrem relata un estudio de 69 científicos que asistieron a una escuela de verano reciente en DOE. A los investigadores se les proporcionó una simulación de una reacción en cadena de la polimerasa y se les solicitó que maximizaran su rendimiento mediante la manipulación de 12 variables diferentes. Como era de esperar, la mayoría de los científicos intentaron simplificar el problema y fijaron variables para reducir el número de dimensiones. Pero lo que es particularmente interesante es la forma no sistemática en que exploraron el espacio de posibilidades: tendieron a centrarse en áreas de recompensa alta y luego hicieron “excursiones” de mayor duración a otras regiones a medida que los rendimientos disminuían. Como señala Lendrem, esto se parece mucho a las “estrategias de búsqueda de alimento de los simios y otros animales… [que] evolucionaron en la explotación de recursos irregulares”.

Aún no se han ideado las mejores estrategias para aprovechar la oferta de la automatización de experimentos enormes y de alta dimensión.

Claramente hay una gran brecha entre este enfoque de búsqueda ineficaz pero instintivo, y la estrategia más eficiente pero menos intuitiva del DOE. La optimización bayesiana (BO) podría ser el punto medio que ayude a sortear esta brecha. Al igual que otros métodos de DOE, esta es una estrategia basada en datos para explorar sistemas multidimensionales. La diferencia clave es que ofrece comentarios rápidos, porque el modelo se ajusta después de cada experimento y luego el algoritmo propone dónde buscar para acercarse al objetivo.

Por lo tanto, la gran oportunidad de BO es servir de “recomendador” basado en datos y ayudar a los científicos que realizan experimentos manuales. Esta asociación permite una búsqueda científica instintiva en la que el experimentador sigue teniendo responsabilidad, pero con orientación estadística para realizar una exploración eficiente de los sistemas multifactoriales.

El futuro del DOE

Sin embargo, ya está surgiendo un escenario en el que ninguno de estos métodos de DOE tendrá sentido. Cuando la automatización permite la ejecución en paralelo de cientos o miles de ejecuciones, los enfoques que se centran en maximizar la información obtenida de un número pequeño de corridas ya no se aplican. Las mejores estrategias para aprovechar la oferta de la automatización de experimentos enormes y de alta dimensión aún están por desarrollarse, y seguramente surgirán de la estrecha colaboración entre los experimentadores y los investigadores que desarrollan estos métodos. Idealmente, necesitamos generalistas que tengan un pie en cada bando.

Según el historial del DOE, deberíamos seguir el ejemplo de Box y atender con intención las necesidades más urgentes de la industria para lograr innovaciones que puedan tener un impacto real.

Dennis Lendrem habló recientemente sobre cómo podemos controlar nuestros instintos de búsqueda científica y utilizar herramientas para un diseño experimental más inteligente. Vea el seminario web cuando lo desee para obtener más información.