Diseños de cribado algorítmico

¿Qué es un diseño de cribado algorítmico?

Los diseños de cribado algorítmico se elaboran mediante software de diseño de experimentos (DOE) para adaptarse a su contexto experimental específico. Un diseño algorítmico puede incorporar muchos tipos distintos de factores, restricciones en el espacio de diseño, limitaciones en la aleatorización y un número variable de ejecuciones, todo ello mientras se genera un diseño que resulta estadísticamente óptimo para el cribado de factores.

¿Cuándo debo utilizar un diseño de cribado algorítmico?

Los diseños de cribado algorítmico son aplicables en casi cualquier contexto de cribado. Son especialmente útiles cuando su situación presenta ciertas necesidades o limitaciones que no puede cumplir un diseño de cribado clásico.

¿Por qué usar diseños de cribado algorítmico?

Los diseños de cribado proporcionan una forma eficiente de identificar cual de todos los factores influyen en más de una respuesta. Los diseños de cribado algorítmico son útiles cuando los diseños clásicos de cribado, como los diseños factoriales fraccionales y los diseños Plackett-Burman, son imprácticos o imposibles de realizar en su contexto experimental.

Los diseños clásicos de cribado se han utilizado eficazmente durante años. Sin embargo, estos diseños se crearon hace muchas décadas como soluciones amplias para aplicarse a escenarios rutinarios de DOE. En la práctica, los experimentadores pueden encontrarse con contextos o desafíos que los diseños clásicos no pueden abordar fácilmente. Por ejemplo, un diseño de cribado clásico puede requerir una ejecución en un área del espacio factorial que sea inviable o imposible de explorar, o puede requerir un número de ejecuciones que exceda el presupuesto de ejecuciones. Los diseños de cribado clásicos pueden obligarle a adaptar su situación al diseño, lo que podría implicar excluir factores o niveles que, de otro modo, habría evaluado, modificar manualmente el diseño en detrimento de sus ventajas estadísticas, u otros inconvenientes.

Por el contrario, los diseños de cribado algorítmico utilizan un algoritmo informático para crear un diseño personalizado que se adapte a su contexto experimental específico. Los diseños algorítmicos permiten muchas personalizaciones, incluyendo, entre otras:

¿Cómo se construyen los diseños de cribado algorítmico?

Un diseño de cribado algorítmico se construye mediante el software DOE en función de sus requisitos. Tras especificar los factores y sus tipos, el número deseado de ejecuciones, las restricciones en el espacio de diseño y otros parámetros, el software utiliza un algoritmo para identificar un diseño de cribado estadísticamente óptimo que cumpla con sus especificaciones. También tiene la opción de especificar si el diseño se utilizará para cribar sólo los efectos principales o cualquier efecto de orden superior específico de interés.

“Estadísticamente óptimo” en este contexto se define por un valor numérico (un criterio de optimalidad) que cuantifica una propiedad estadística del diseño. En un diseño de cribado típico, el criterio de optimalidad cuantifica qué tan bien el diseño admite estimaciones precisas de los efectos de los factores. Se realiza en experimentos de cribado porque se necesitan estimaciones precisas del efecto para determinar con exactitud qué factores afectan más fuertemente a la respuesta. Otros criterios de optimalidad son útiles para otros contextos del DOE; por ejemplo, los experimentos de superficie de respuesta algorítmica suelen usar un criterio de optimalidad que cuantifica lo bien que el diseño admite construir un modelo que haga predicciones precisas de la respuesta.

¿Cuál es un ejemplo de diseño de cribado algorítmico?

Comencemos con el mismo escenario presentado en la página de descripción general del diseño de cribado, pero con complicaciones añadidas.

Supongamos que trabaja en una empresa farmacéutica que está desarrollando un proceso de fabricación para un nuevo medicamento. Debe identificar qué factores influyen más en el nivel de impureza del medicamento, con el objetivo final de aplicar metodología de superficie de respuesta a esos factores para encontrar ajustes que minimicen las impurezas. Los factores en este experimento de cribado son:

Se enfrenta a dos complicaciones al diseñar este experimento. En primer lugar, los límites de recursos le restringen a 15 ejecuciones, lo que puede abarcar menos del 2 % de las 768 esquinas del espacio factorial. Con este diseño disperso, es necesario evaluar el efecto principal de cada factor, así como la posibilidad de que exista una curvatura cuadrática en los efectos de uno o más de los factores continuos, lo que requiere al menos un punto central (es decir, una serie de mediciones en el valor intermedio de todos los factores continuos). En segundo lugar, usted sabe que no es posible operar a alta presión manteniendo una temperatura baja y viceversa, por lo que es necesario restringir el diseño para evitar ejecuciones en estas zonas del espacio factorial. Esta restricción se representa gráficamente a continuación, donde las regiones rojas representan las zonas del espacio factorial que deben evitarse.

Al principio, usted intenta elaborar un diseño de cribado clásico, lo que limita de inmediato sus opciones, ya que la mayoría de los diseños de cribado clásicos asumen que los factores categóricos tienen dos niveles, mientras que el proveedor tiene tres. El diseño clásico que tiene a su disposición (un diseño L18) requiere un mínimo de 18 ejecuciones y no admite la restricción de presión por temperatura, por lo que decide descartar el diseño clásico y optar por un diseño basado en algoritmos.

Utilizando un software de DOE, como JMP, se crea un diseño de 15 ejecuciones sin ejecuciones en las esquinas inviables del espacio factorial. El software le indica que el diseño requerirá un mínimo de 11 ejecuciones, lo cual es necesario para estimar la constante y los efectos principales de siete factores continuos, un factor categórico de tres niveles y un factor categórico de dos niveles. (Tenga en cuenta que un factor de nivel k requiere estimar los parámetros del modelo k-1.) Aún le quedan cuatro ejecuciones en su presupuesto, por lo que especifica que el algoritmo debe generar un diseño con dos puntos centrales y dos ejecuciones de réplicas. En conjunto, le ayudarán a evaluar si algún efecto continuo presenta curvatura cuadrática. (Hablaremos de esto con más detalle cuando analicemos los datos). A continuación se muestra la tabla de diseño, seguida de un gráfico que representa el diseño en el espacio de presión por temperatura.

ejecutar Tiempo de mezcla Presión ph Velocidad de agitación Catalizador Temperatura Velocidad de alimentación Proveedor Tamaño de la partícula
1 30 80 8 100 1 45 10 Barato Pequeño
2 30 80 5 120 2 45 15 Rápido Pequeño
3 10 65 5 100 2 45 15 Barato Grande
4 10 80 8 120 1 45 15 Bueno Grande
5 30 80 5 120 2 45 15 Rápido Pequeño
6 10 60 8 120 2 15 15 Barato Pequeño
7 20 69.9 6.5 110 1.5 30.1 12.5 Bueno Grande
8 30 60 8 100 1 15 15 Rápido Grande
9 10 60 5 120 1 40 10 Rápido Pequeño
10 20 69.9 6.5 110 1.5 30.1 12.5 Bueno Grande
11 30 60 8 100 1 15 15 Rápido Grande
12 30 75 5 120 1 15 10 Barato Grande
13 10 80 8 100 2 20 10 Rápido Grande
14 10 80 5 100 1 20 15 Bueno Pequeño
15 30 60 8 100 2 40 10 Bueno Pequeño

Observe que el diseño es diferente a cualquier diseño de cribado clásico que haya visto anteriormente. Tanto la presión como la temperatura se miden en cinco niveles, en lugar de dos o tres. Observe también que los puntos centrales se sitúan cerca de los valores intermedios de los rangos de presión y temperatura , pero no exactamente en ellos (es decir, 69.9 para presión y 30.1 para temperatura). Esto se debe a que el algoritmo de diseño encontró un diseño estadísticamente óptimo que cumple con su restricción de presión en función de la temperatura , mientras se esfuerza por obtener estimaciones precisas de los parámetros en la fase de análisis. Observe que, efectivamente, se respetó la restricción, ya que no hay ejecuciones en las esquinas superior izquierda ni inferior derecha del gráfico de presión por temperatura. En cambio, el algoritmo colocó los puntos lo más cerca posible de esas esquinas, dentro de los límites permitidos por su restricción.

A continuación, usted realiza las 15 ejecuciones en orden aleatorio, midiendo el nivel de impureza resultante en cada ocasión, y luego analiza los resultados utilizando un modelo de regresión múltiple con efectos principales únicamente. Se observa que el análisis revela tres factores con valores p inferiores a 0.05, lo que indica evidencia estadística de un efecto sobre la impureza: temperatura , proveedor y pH. Se concluye que los otros factores o bien son inactivos o tienen efectos insignificantes.

factor valor p
Temperatura 0.00204
Proveedor 0,01744
ph 0.01750
Velocidad de alimentación 0.19999
Catalizador 0.24683
Tiempo de mezcla 0.49980
Velocidad de agitación 0.52453
Presión 0,82430
Tamaño de la partícula 0.92482

A continuación, elabore un gráfico para comprender la naturaleza de los efectos que ha descubierto. El gráfico muestra que tanto los efectos de la temperatura como los del pH son positivos, siendo el efecto de la temperatura mayor en todo su rango. También se observa un patrón claro en el efecto de proveedor, donde Barato tiene un nivel de impureza notablemente mayor que Rápido o Bueno. También se observa que los dos puntos centrales (representados como círculos abiertos) se encuentran muy por debajo de las líneas que representan los efectos de la temperatura y el pH. Esto sugiere una curvatura cuadrática en al menos un efecto continuo, aunque con los puntos centrales no es posible identificar qué factor es el responsable.

Por último, consulte una prueba de falta de ajuste, que comprueba si a su modelo le falta algún efecto, como la curvatura cuadrática. Esta prueba requiere al menos una réplica en el diseño, y usted indicó de manera acertada que el algoritmo incluyera réplicas en su diseño. El valor p de la prueba es menor que 0.05, así que se concluye que el modelo carece de un efecto. Esto es coherente con la evaluación visual de la curvatura en el gráfico. Usted decide seguir adelante con los tres factores activos que ha identificado, aumentando su diseño con nuevas series de ensayos para obtener un diseño de superficie de respuesta que le permita estimar la curvatura cuadrática tanto de los factores continuos como de todas las interacciones de dos factores entre los tres factores.

Falta de ajuste

Fuente Grados de libertad Suma de cuadrados Media de los cuadrados Razón F
Falta de ajuste 1 39.73 39.73 94.11
error puro 3 1.27 0.42 Prob > F
error total 4 41.00 0.0023*