Regresión lineal múltiple con interacciones

Izquierda
Azul

Considerar las interacciones en la regresión lineal múltiple es fundamental para comprender mejor las relaciones entre los predictores y evitar interpretaciones erróneas. Exploremos este concepto más a fondo con algunos ejemplos.

Anteriormente, ajustamos un modelo lineal para los datos de impureza utilizando únicamente tres predictores continuos (consulte la fórmula del modelo a continuación). Esto es lo que llamaríamos un modelo aditivo.

Según este modelo, si aumentamos la temperatura en 1 grado C, entonces la impureza aumenta en promedio alrededor del 0.8 %, independientemente de los valores de la concentración del catalizador y del tiempo de reacción. La presencia de concentración del catalizador y tiempo de reacción en el modelo no cambia esta interpretación.

Del mismo modo, si aumentamos la concentración del catalizador en 1 unidad, la impureza aumenta en torno a un 2.1 % de media, independientemente de los valores de temperatura o tiempo de reacción. Pero es posible que el efecto de un predictor en la impureza dependa de los valores de otro predictor.

Por ejemplo, el efecto de la temperatura sobre la impureza podría depender del valor de la concentración del catalizador o del tiempo de reacción, o de ambos. Esta dependencia se conoce en estadística como un efecto de interacción.

Descubra cómo ajustar un modelo que incluya interacciones utilizando software estadístico

https://share.vidyard.com/watch/Lj65xiNGTdtkjhZZYHjjhC

Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito

Para ilustrar, consideremos un ejemplo sencillo sobre la fuerza de rotura de una herramienta a diferentes velocidades utilizando dos materiales distintos. Observe que las pendientes de las líneas que representan la velocidad frente a la respuesta, la fuerza, son diferentes para los dos valores de material.

Esto se aprecia mejor si superponemos los datos con las líneas ajustadas de los dos materiales en el mismo gráfico. En valores bajos de velocidad, el material 1 tiene una mayor fuerza de rotura. Pero a valores elevados de velocidad, el material 2 tiene una mayor fuerza de rotura. Se trata de una interacción clásica. El efecto de la velocidad sobre la fuerza depende del material. Y, si le damos la vuelta, el efecto del material sobre la fuerza depende de la velocidad.

Podemos extender nuestro modelo para tener en cuenta esta dependencia incluyendo un término de interacción en el modelo. En el caso de dos predictores, el término de interacción bidireccional se construye calculando el producto de X1 y X2.

Volvamos al ejemplo de las impurezas. Ajustamos un modelo con los tres predictores continuos, o efectos principales, y sus interacciones de dos factores. Como tenemos tres efectos principales, hay tres posibles interacciones de dos factores. La interacción entre la concentración del catalizador y el tiempo de reacción es significativa, junto con la interacción entre la temperatura y el tiempo de reacción. Sin embargo, la interacción entre la temperatura y la concentración del catalizador no es significativa.

Podemos visualizar estas interacciones mediante gráficos de interacciones. Cada gráfico de interacción de esta matriz muestra la interacción del efecto de fila con el efecto de columna. Para cada par de variables hay dos gráficos de interacción, lo que nos permite visualizar las interacciones desde diferentes perspectivas.

Tomemos, por ejemplo, la interacción entre la temperatura y la concentración del catalizador. Las pendientes de las líneas para la temperatura y la concentración del catalizador son paralelas. Esto significa que, en promedio, el efecto de la temperatura sobre la impureza no cambia a medida que aumenta el tiempo de reacción, y viceversa.

Las pendientes de las líneas en los gráficos de interacción entre el tiempo de reacción y la temperatura no son paralelas. Y las pendientes de las líneas en los gráficos de interacción entre la concentración del catalizador y el tiempo de reacción también son no paralelas.

El perfilador de predicción facilita la comprensión de estas interacciones. Por ejemplo, tomemos la interacción entre la temperatura y el tiempo de reacción. ¿Observa cómo cambia la pendiente del tiempo de reacción a medida que cambiamos el valor de la temperatura del nivel bajo al nivel alto?

Es importante comprender estas interacciones, ya que nos proporcionan información adicional sobre nuestra respuesta.

¿Qué ocurre con los dos predictores categóricos, reactor y desplazamiento? Anteriormente, ajustamos un modelo con los cinco predictores. Si tenemos suficientes datos y tiene sentido hacerlo, podemos ajustar un modelo con todas las interacciones bilaterales posibles. Pero aquí es donde las cosas pueden complicarse, especialmente si tenemos predictores categóricos. En este caso, nuestro modelo con todas las interacciones bilaterales incluye cinco efectos principales y 10 interacciones. Muchos de estos términos no son significativos.

Como el Reactor tiene tres niveles, el modelo incluye el intercepto más 19 estimaciones de parámetros.

Tanto el r cuadrado ajustado como el error cuadrático medio han mejorado con respecto a nuestros modelos anteriores.

Sin embargo, este modelo es demasiado complejo, y debemos tener en cuenta el objetivo de nuestro análisis. En el modelado explicativo, nos interesa principalmente comprender los predictores importantes y formular afirmaciones sobre los coeficientes de dichos predictores. No nos preocupa tanto hacer predicciones sobre el rendimiento futuro del sistema que estamos estudiando. En el ámbito de la modelización predictiva, nuestro objetivo es desarrollar un modelo que prediga la respuesta con la mayor precisión posible. Para ambos objetivos, tiene sentido simplificar nuestro modelo a fin de incluir únicamente los efectos más importantes. Trataremos este tema de la selección de variables, o reducción de modelos, en otra sección.