Regresión lineal múltiple con predictores categóricos

Izquierda
Azul

Anteriormente, ajustamos un modelo para Impureza con Temp, Concentración de Catalizador y Tiempo de Reacción como predictores. Pero hay otros dos predictores que podríamos considerar: Reactor y Shift.

Reactor es una variable categórica de tres niveles y Shift es una variable categórica de dos niveles. ¿Cómo podemos extender nuestro modelo para investigar las diferencias en **Impurity** entre los dos turnos, o entre los tres reactores?

Para integrar una variable categórica de dos niveles en un modelo de regresión, creamos una variable indicadora o ficticia con dos valores: asignando un 1 para el primer turno y -1 para el segundo turno.

Vea cómo usar programas Estadísticos para ajustar un modelo con predictores categóricos

https://share.vidyard.com/watch/XnZuHFPGGVY1HFj4kTrG8n

Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito

Considere los datos de las primeras 10 observaciones. Detrás de las escenas, cuando ajustamos un modelo con Shift, el software sustituye un 1 por el primer turno y un -1 por el segundo turno.

Para un modelo con Shift como único predictor, la intersección es la media global de Impureza. El coeficiente de desplazamiento, escrito desplazamiento[1], es -0.012. Esta es la cantidad en la que el primer turno está por debajo de la impureza promedio.

Por tanto, la Impurity del primer turno es la constante del modelo menos 0,012, es decir, 6,111. La Impurity promedio para el segundo turno es la ordenada al origen Más 0.012, o 6.135.

Sin embargo, Los valores pson muy grandes. Así que esta diferencia No significativo.

Tenga en cuenta que, en lugar de utilizar la codificación de los efectos -1/1, muchos paquetes de software aplican la codificación ficticia 0/1: asignando un 0 al primer turno y un 1 al segundo turno.

El coeficiente resultante para Desplazamiento[1] es la diferencia en el promedio de Impureza entre el primer y el segundo turno. Por lo tanto, la Impurity del primer turno es 0,024 menor que la Impurity del segundo turno.

Es importante destacar que estos dos esquemas de codificación producen las mismas predicciones del modelo. Sin embargo, desde una perspectiva explicativa, la interpretación de los coeficientes es diferente. Centrémonos en la variable Reactor, que tiene tres niveles. En este caso, el modelo de regresión incluye dos variables indicadoras, con coeficientes para el Reactor 1 y el Reactor 2. Nuevamente, podemos aplicar Codificación de los efectos o codificación ficticia.

Aquí se aplica la Codificación de los efectos:

El promedio de Impurity para el Reactor 1 es 0,82 por debajo del promedio, y el promedio de Impurity para el Reactor 2 es 0,42 por debajo del promedio.

¿Por qué no informamos un coeficiente para el Reactor 3? Resulta que, para los predictores categóricos de tres niveles, el último nivel es redundante con respecto a los dos primeros niveles.

La interpretación de las estimaciones codificadas por efectos es que cada coeficiente representa la diferencia respecto al promedio. Dado que estos coeficientes deben sumar cero, la media de **Impurity** para el Reactor 3 se puede calcular fácilmente a partir de los dos primeros: la media de **Impurity** para el Reactor 3 está 1,24 por encima de la media.

Como generalización, para un predictor categórico de k niveles, el software calcula k-1 coeficientes.

Regresemos a los resultados de nuestro modelo. Los valores p para el modelo completo y las estimaciones de los parámetros son muy bajos, lo que indica que hay diferencias significativas en la Impureza media de los diferentes reactores.

Ahora, lo reuniremos todo. Ajustamos un modelo para Impurity con los cinco predictores. Nuevamente, los valores pen la tabla ANOVA indican que todo el modelo es Significativo.

Las tablas resumen proporcionan pruebas para los efectos completos. Observamos que Temp, Catalyst Conc y Reactor son significativos, ajustando por los otros términos en el modelo.

Como recordatorio, aquí están los resultados de nuestro modelo con solo los tres predictores continuos.

El Error: cuadrático medio de nuestro nuevo modelo es más bajo. Y el R cuadrado para nuestro nuevo modelo es más alto. Así que nuestro modelo explica más de la variación en Impureza.

Sin embargo, R cuadrado se puede inflar al Agregar=> Más términos al modelo, incluso si estos nuevos términos son No significativo. Por lo tanto, en situaciones de regresión lineal múltiple, utilizamos R cuadrado ajustado cuando comparamos diferentes modelos con los mismos datos en lugar de utilizar R cuadrado. El R cuadrado Ajustado aplica una penalización por cada término adicional, p, que se añade al modelo. Si se añade un término al modelo que no explica la variación en la respuesta, el R cuadrado Ajustado disminuye.

El R cuadrado Ajustado de nuestro nuevo modelo es mayor que el R cuadrado Ajustado de nuestro modelo original. Esto confirma que el nuevo modelo se ajusta mejor que el modelo original.

¿Pero podemos hacerlo mejor? ¿Existen otros términos que podamos Agregar=> al modelo? Exploraremos esto en una próxima Sección.