Ajuste del modelo de regresión lineal múltiple

Izquierda
Azul

Recuerde que el método de los mínimos cuadrados se utiliza para encontrar la línea que mejor se ajusta a los datos observados. La ecuación de regresión estimada por mínimos cuadrados tiene la suma mínima de errores al cuadrado, o desviaciones, entre la línea ajustada y las observaciones.

Cuando hay más de un predictor, se utiliza este mismo enfoque de mínimos cuadrados para estimar los coeficientes del modelo. Por ejemplo, con dos predictores, la regresión por mínimos cuadrados se convierte en un plano, con dos coeficientes de pendiente estimados (ver imagen abajo).

Los coeficientes se estiman de manera que se minimice la suma de los cuadrados de las desviaciones entre el plano y las observaciones.

Esto se extiende a más de dos predictores, pero encontrar la solución de mínimos cuadrados resulta mucho más complejo y requiere álgebra matricial. Afortunadamente, la mayoría de los paquetes de software estadístico pueden ajustar con facilidad modelos de regresión lineal múltiple.

Vea cómo usar software estadístico para ajustar un modelo de regresión lineal múltiple

https://share.vidyard.com/watch/pSDadUb8FfayEZDqvVbnSu

Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito

Revisemos los datos de limpieza una vez más, centrándonos unicamente en dos predictores, OD y ID. Vemos que ambos OD y ID están positivamente correlacionados con Removal.  Y también observamos que están correlacionados entre sí. Esto significa que las piezas con diámetros exteriores mayores también tienden a tener diámetros interiores más grandes.

En nuestros modelos individuales, OD e ID son predictores significativos de eliminación, con valores pmuy pequeños.

Aquí ajustamos un modelo de regresión lineal múltiple para Removal, con OD y ID como predictores. Note que los coeficientes de los dos predictores han cambiado. El coeficiente para OD (0,559) es bastante parecido al que observamos en el modelo de regresión lineal simple, aunque ligeramente más alto. Pero, ¡mire el coeficiente de ID! Ahora es negativo, y ya no es significativo.

¿Cómo interpretamos estos resultados? En la regresión lineal múltiple, la significación de cada término del modelo depende de los demás términos del modelo. OD y ID están fuertemente correlacionados. Cuando OD aumenta, ID también tiende a aumentar. Entonces, cuando ajustamos un modelo con OD, ID no aporta mucha información adicional sobre removal.

Vemos esto más claramente cuando examinamos las estadísticas de ajuste del modelo. Recuerde que R cuadrado (R2) es una medida de la variabilidad en la respuesta explicada por el modelo. Cuando se ajustan modelos de regresión múltiple, se utiliza una medida similar, RSquare Adjusted. Describiremos R cuadrado ajustado con más detalle más adelante en esta lección.

Una segunda medida importante del ajuste del modelo, la raíz del error cuadrático medio, o RMSE, es una medida de la variación no explicada en el modelo. Esta es, esencialmente, una medida de qué tan lejos están los puntos de la línea ajustada, en promedio. Cuando la raíz del error: Media de los cuadrados es menor, los puntos están generalmente más cerca de la línea ajustada. Para un modelo predictivo, esto se refiere a un modelo que realiza predicciones con mayor precisión. En nuestro modelo individual para OD, R cuadrado es 0.84 y la raíz del error cuadrático medio es 1.12.

¿Cuál es el R cuadrado ajustado para el modelo de regresión múltiple con ambos ID y OD? Es básicamente lo mismo, 0,83. Y la raíz del error cuadrático medio del modelo con ambos predictores, 1,13, es muy similar a la raíz del error cuadrático medio del modelo con sólo OD.  Por lo tanto, no aprendemos nada más sobre la eliminación cuando añadimos ID al modelo de lo que ya sabemos solo con OD .

Estos resultados algo contradictorios son en realidad bastante comunes, y más adelante veremos cómo abordar el problema. Por ahora, exploremos el problema más a fondo con un nuevo ejemplo.

Consideremos la relación entre los ahogamientos y el consumo de helados. Introdujimos este ejemplo en un ejercicio de la lección sobre correlación. Cuando ajustamos un modelo de regresión para DrowningRate como función de IceCreamRate, el modelo es altamente significativo. Las tasas alto: de ahogamiento están asociadas con tasas alto: de consumo de helados. Pero, ¿podemos interpretar esto como que el consumo de helado está directamente relacionado con los ahogamientos?

Cuando miramos más de cerca, vemos que también hay una relación significativa entre DrowningRate y Año. Con el tiempo, la tasa de ahogamiento está disminuyendo.

Cuando ajustamos un modelo de regresión múltiple con Tasa de Helado y Año, sólo Año es significativo. Calculando media, la tasa de ahogamientos disminuye en 0,12 por año.  El consumo de helado ya no es un predictor significativo de ahogamientos, después de ajustar por cambios a lo largo del tiempo.

Recuerde la discusión anterior sobre la correlación frente a la causalidad. El hecho de que observemos resultados significativos al ajustar un modelo de regresión para dos variables no implica necesariamente que un cambio en el valor de una variable cause un cambio en el valor de la segunda variable, ni que haya una relación directa entre ambas variables.