Diseños de cribado algorítmicos
¿Qué es un diseño de cribado algorítmico?
Los diseños de cribado algorítmico se construyen mediante software de diseño de experimentos (DOE) para adaptarse a su contexto experimental único. Un diseño algorítmico puede incorporar muchos tipos de factores diferentes, restricciones en el espacio de diseño, limitaciones en la aleatorización y números variables de corridas, todo mientras produce un diseño que es estadísticamente óptimo para el cribado de factores.
¿Cuándo debería utilizar un diseño de cribado algorítmico?
Los diseños de cribado algorítmicos son aplicables en casi todos los contextos de cribado. Son especialmente útiles cuando su situación presenta ciertas necesidades o limitaciones que no pueden satisfacerse con un diseño de cribado clásico.
¿Por qué usar diseños de cribado algorítmicos?
Los diseños de cribado ofrecen una manera eficiente de identificar cuáles de los muchos factores influyen más en una respuesta. Los diseños de cribado algorítmicos son útiles cuando los diseños de cribado clásicos, como los diseños factoriales fraccionales y los diseños de Plackett-Burman, son poco prácticos o imposibles de llevar a cabo en su contexto experimental.
Los diseños de cribado clásicos se han utilizado eficazmente durante años. Sin embargo, estos diseños se crearon hace muchas décadas como soluciones generales para aplicarse en escenarios rutinarios de diseño de experimentos. En la práctica, los experimentadores pueden encontrar contextos o desafíos que los diseños clásicos no pueden acomodar fácilmente. Por ejemplo, un diseño de cribado clásico podría requerir ejecutar un experimento en un área del espacio factorial que sea inviable o imposible de explorar, o podría requerir una cantidad de ejecuciones que exceda su presupuesto de ejecución. Los diseños clásicos de cribado pueden forzarle a adaptar su situación para que se ajuste al diseño, lo que podría requerir excluir factores o niveles que de otro modo probaría, lo cual modificaría manualmente el diseño en detrimento de sus beneficios estadísticos, u otros inconvenientes.
En cambio, los diseños de cribado algorítmicos utilizan un algoritmo informático para construir un diseño personalizado que se ajuste a su contexto experimental único. Los diseños algorítmicos permiten muchas personalizaciones, incluidas, entre otras:
- Especificar un número de corridas que coincida con su presupuesto de corridas.
- Combinar muchos tipos diferentes de factores dentro de un diseño único.
- Restringir el espacio de diseño para evitar combinaciones indeseables de configuración de factores.
- Imponer una variedad de restricciones a la aleatorización.
¿Cómo se construyen los diseños de exploración algorítmica?
El software del DOE construye un diseño de detección algorítmico en función de sus requisitos. Después de especificar los factores y sus tipos, el número deseado de corridas, las restricciones en el espacio de diseño y otros parámetros, el software utiliza un algoritmo para identificar un diseño de cribado estadísticamente óptimo que cumpla con sus especificaciones. También tiene la opción de especificar si el diseño se utilizará para cribar solo los efectos principales o para cualquier efecto específico de interés de orden superior.
"Estadísticamente óptimo" en este contexto se define por un valor numérico (un criterio de optimalidad) que cuantifica una propiedad estadística del diseño. En un diseño de cribado típico, el criterio de optimalidad cuantifica qué tan bien el diseño admite estimaciones precisas de efectos de factor. Se lleva a cabo en experimentos de cribado porque se requieren estimaciones precisas de los efectos para determinar con exactitud qué factores influyen más en la respuesta. Otros criterios de optimalidad son útiles para otros contextos de DOE; por ejemplo, los experimentos algorítmicos de superficie de respuesta típicamente utilizan un criterio de optimalidad que cuantifica qué tan bien el diseño admite la construcción de un modelo que hará predicciones precisas de la respuesta.
¿Cuál es un ejemplo de un diseño de cribado algorítmico?
Comencemos con el mismo escenario presentado en la página de vista general de diseños de cribado, pero con complicaciones adicionales.
Suponga que trabaja en una empresa farmacéutica que está desarrollando un proceso de fabricación para un fármaco nuevo. Necesita identificar qué factores influyen más en el nivel de impureza del fármaco, con el objetivo final de aplicar la metodología de superficies de respuesta a esos factores para encontrar la configuración de factores que minimiza la impureza. Los factores en este experimento de cribado son:
- Tiempo de mezcla: (continuo; de 10 a 30 minutos)
- Presión: (continua; de 60 a 80 kPa)
- pH: (continuo; 5 a 8)
- Velocidad de agitación: (continua; de 100 a 120 RPM)
- Catalizador: (continuo; 1% a 2%)
- Temperatura: (continua; de 15° a 45° centígrados)
- Velocidad de alimentación: (continua; de 10 A 15 L/min)
- Proveedor: (categórico de tres niveles; tres diferentes proveedores de materias primas)
- Tamaño de partícula: (dos niveles categóricos; pequeño y grande)
Al diseñar este experimento, se enfrentan dos complicaciones. Primero, las limitaciones de recursos le limitan a 15 ejecuciones, que pueden cubrir menos del 2% de las 768 esquinas del espacio factorial. Con este diseño disperso, necesita evaluar el efecto principal de cada factor, así como la posibilidad de curvatura cuadrática en los efectos de uno o más de los factores continuos, requiriendo al menos un punto central (es decir, una ejecución en el valor medio de todos los factores continuos). En segundo lugar, sabe que no es factible operar a alta presión mientras se mantiene una baja temperatura y viceversa, por lo que necesita restringir el diseño para evitar ejecuciones en estas áreas del espacio factorial. Esta restricción se representa gráficamente a continuación, donde las regiones rojas indican áreas del espacio factorial que se deben evitar.
Al principio, intenta construir un diseño de cribado clásico, lo cual inmediatamente limita sus opciones porque la mayoría de los diseños de cribado clásicos asumen que todos los factores categóricos son de dos niveles; sin embargo Proveedor es de tres niveles. El diseño clásico disponible para usted (un diseño L18) requiere un mínimo de 18 ejecuciones y no acomoda la restricción de Presión por Temperatura, por lo que decide rechazar el diseño clásico en favor de un diseño algorítmico.
Usando software DOE, como JMP, usted crea un diseño de 15 ejecuciones sin ejecuciones en las esquinas inviables del espacio factorial. El software indica que el diseño requerirá un mínimo de 11 ejecuciones, lo cual es necesario para estimar la constante del modelo y los efectos principales de siete factores continuos, un factor categórico de tres niveles y un factor categórico de dos niveles. (Tenga en cuenta que un factor de K-nivel requiere estimar K-1 parámetros del modelo.) Todavía le quedan cuatro ejecuciones en su presupuesto, por lo que especifica que el algoritmo debe producir un diseño con dos puntos centrales y dos ejecuciones replicadas. Juntas, le ayudarán a evaluar si todos los efectos continuos presentan una curvatura cuadrática. (Veremos esto más a fondo cuando hagamos el análisis de los datos.) La tabla de diseño está a continuación, seguida de un gráfico que muestra el diseño en el espacio de Presión por Temperatura .
| Ejecutar | Tiempo de mezcla | Presión | PH | Velocidad de agitación | Catalizador | Temperatura | Velocidad de alimentación | Proveedor | Tamaño de partícula |
| 1 | 30 | 80 | 8 | 100 | 1 | 45 | 10 | Barato | Pequeño |
| 2 | 30 | 80 | 5 | 120 | 2 | 45 | 15 | Rápido | Pequeño |
| 3 | 10 | 65 | 5 | 100 | 2 | 45 | 15 | Barato | Grande |
| 4 | 10 | 80 | 8 | 120 | 1 | 45 | 15 | Bueno | Grande |
| 5 | 30 | 80 | 5 | 120 | 2 | 45 | 15 | Rápido | Pequeño |
| 6 | 10 | 60 | 8 | 120 | 2 | 15 | 15 | Barato | Pequeño |
| 7 | 20 | 69,9 | 6,5 | 110 | 1.5 | 30,1 | 12,5 | Bueno | Grande |
| 8 | 30 | 60 | 8 | 100 | 1 | 15 | 15 | Rápido | Grande |
| 9 | 10 | 60 | 5 | 120 | 1 | 40 | 10 | Rápido | Pequeño |
| 10 | 20 | 69,9 | 6,5 | 110 | 1.5 | 30,1 | 12,5 | Bueno | Grande |
| 11 | 30 | 60 | 8 | 100 | 1 | 15 | 15 | Rápido | Grande |
| 12 | 30 | 75 | 5 | 120 | 1 | 15 | 10 | Barato | Grande |
| 13 | 10 | 80 | 8 | 100 | 2 | 20 | 10 | Rápido | Grande |
| 14 | 10 | 80 | 5 | 100 | 1 | 20 | 15 | Bueno | Pequeño |
| 15 | 30 | 60 | 8 | 100 | 2 | 40 | 10 | Bueno | Pequeño |
Observa que el diseño se ve diferente de cualquier diseño de cribado clásico que haya visto antes. Tanto Presión como Temperatura se miden en cinco niveles en lugar de dos o tres. También observará que los puntos centrales se miden cerca, pero no exactamente, de los valores medios de los rangos de Presión y Temperatura (es decir, 69.9 para la Presión y 30.1 para la Temperatura). Esto es el resultado de que el algoritmo de diseño encontró un diseño estadísticamente óptimo que cumple con su restricción de Presión por Temperatura mientras se esfuerza por obtener estimaciones precisas de los parámetros en la fase de análisis. Usted nota que la restricción efectivamente se ha cumplido porque no hay secuencias en las esquinas superior izquierda o inferior derecha del gráfico de Presión por Temperatura . En su lugar, el algoritmo ha colocado puntos tan cerca de esas esquinas como lo permitía su restricción.
A continuación, realiza las 15 ejecuciones en orden aleatorio, midiendo cada vez el nivel de impureza resultante y analizando los resultados mediante un modelo de regresión múltiple con solo efectos principales. Descubre que el análisis revela tres factores con valores p inferiores a 0.05, lo que indica evidencia estadística de un efecto sobre la Impureza: Temperatura , Proveedor y pH. Concluye que los otros factores son inactivos o tienen efectos insignificantes.
| Factor | Valor p |
| Temperatura | 0,00204 |
| Proveedor | 0,01744 |
| PH | 0,01750 |
| Velocidad de alimentación | 0,19999 |
| Catalizador | 0,24683 |
| Tiempo de mezcla | 0,49980 |
| Velocidad de agitación | 0.52453 |
| Presión | 0,82430 |
| Tamaño de partícula | 0,92482 |
Luego, hace un gráfico para entender la naturaleza de los efectos que ha descubierto. El gráfico muestra que los efectos de Temperatura y pH son positivos, siendo el efecto de Temperatura más grande a lo largo de su rango. También se observa un patrón claro en el efecto del Proveedor; el Económico tiene un nivel de impurezas notablemente más alto que el Rápido o Bueno. También nota que los dos puntos centrales (mostrados como círculos abiertos) están muy por debajo de las líneas que trazan los efectos de la Temperatura y el pH. Esto sugiere una curvatura cuadrática en al menos un efecto continuo, aunque con puntos centrales, no se puede identificar qué factor es responsable.
Por último, usted consulta una prueba de falta de ajuste, que comprueba si a su modelo le falta un efecto, como la curvatura cuadrática. Esta prueba requiere al menos una replicación en el diseño, y usted especificó inteligentemente que el algoritmo incluya replicaciones en su diseño. Los valores p de la prueba son menores que 0.05, por lo que concluye que al modelo le falta un efecto. Esto es coherente con su evaluación visual de la curvatura en el gráfico. Decide moverse hacia delante con los tres factores activos que ha identificado, aumentando su diseño con nuevas ejecuciones para producir un diseño de superficies de respuesta que le permitirá estimar la curvatura cuadrática tanto para los factores continuos como para todas las interacciones de dos factores entre los tres factores.
falta de ajuste
| Fuente | Grados de libertad | Suma de cuadrados | Media de los cuadrados | Razón F |
| Falta de ajuste | 1 | 39,73 | 39,73 | 94,11 |
| Error puro | 3 | 1.27 | 0,42 | Prob > F |
| Error total | 4 | 41,00 | 0.0023* |