Suposiciones del modelo de regresión

Hacemos algunas suposiciones cuando utilizamos la regresión lineal para modelar la relación entre una respuesta y un predictor. Estas suposiciones son esencialmente condiciones que deben cumplirse antes de que hagamos Inferencias sobre las estimaciones del modelo o antes de que usemos un modelo para hacer una predicción.

  • La relación verdadera es lineal
  • Los errores están distribuidos normalmente
  • Homoscedasticidad de errores (o, igual varianza alrededor de la línea).
  • Independencia de las observaciones
Izquierda
Azul

Dado que estamos ajustando un modelo lineal, asumimos que la relación es realmente lineal, y que los errores, o residuos, son simplemente fluctuaciones aleatorias alrededor de la línea Verdadero. Suponemos que la variabilidad en la respuesta no aumenta a medida que aumenta el Valor del predictor. Esta es la suposición de varianzas iguales.

También asumimos que las observaciones son independientes entre sí. La correlación entre observaciones secuenciales, o autocorrelación, puede ser un problema con los datos de series temporales, es decir, con datos que tienen un orden temporal natural.

¿Cómo comprobamos las suposiciones de regresión? Examinamos la variabilidad que queda después de ajustar la Línea de regresión. Simplemente graficamos los residuos y buscamos cualquier patrón inusual.

Si un modelo lineal tiene sentido, los residuos lo harán

  • tener una varianza constante
  • tener una distribución aproximadamente normal (con una media de cero), y
  • ser independientes entre sí.

El gráfico más útil para analizar residuos es un gráfico de residuos en función de la predicción. Este es un gráfico de cada valor residual trazado contra el valor predicho correspondiente.

Si se cumplen las suposiciones, los residuos se dispersarán aleatoriamente alrededor de la línea central de cero, sin un patrón obvio. Los residuos tendrán un aspecto de nube de puntos sin estructura, centrada en cero.

Vea cómo evaluar las suposiciones de los modelos utilizando software estadístico

https://share.vidyard.com/watch/fhLLwFcdvdgFAqvBwAN47x

Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito

Si existe un patrón no aleatorio, la naturaleza del patrón puede identificar posibles problemas con el modelo.

Por ejemplo, si se observa curvatura en los residuos, es probable que exista curvatura en la relación entre la respuesta y el predictor que no está explicada por nuestro modelo.  Un modelo lineal no describe adecuadamente la relación entre el predictor y la respuesta.

En este ejemplo, el modelo lineal sistemáticamente sobrepredice algunos valores (los residuos son negativos), y subpredice otros (los residuos son positivos).

Si los residuos se dispersan conforme aumentan los valores predichos, entonces tenemos lo que se conoce como heterocedasticidad. Esto significa que la variabilidad en la respuesta está cambiando a medida que el valor predicho aumenta.

Esto es un problema, en parte, porque las observaciones con errores más grandes tendrán más influencia en el modelo ajustado.

Un patrón inusual también podría ser causado por un valor atípico. Los valores atípicos pueden tener una gran influencia en el ajuste de la Línea de regresión.

En este ejemplo, tenemos un valor atípico evidente. Muchos de los residuos con valores predichos más bajos son positivos (están por encima de la línea central de cero), mientras que muchos de los residuos para valores predichos más altos son negativos.

El único valor atípico extremo está esencialmente inclinando la Línea de regresión. Como resultado, el modelo no predecirá bien para muchas de las observaciones.

Además del gráfico de residuos frente a predichos, hay otros gráficos de residuos que podemos usar para verificar las suposiciones de regresión. Un histograma de residuos y un gráfico de probabilidad normal de residuos se pueden utilizar para evaluar si nuestros residuos están distribuidos aproximadamente de forma normal. Sin embargo, a menos que los residuos estén lejos de la normalidad o presenten un patrón evidente, generalmente no necesitamos preocuparnos demasiado acerca de la normalidad.

Tenga en cuenta que verificamos la normalidad de los residuos. No necesitamos verificar la normalidad de los datos sin procesar. Nuestras variables de respuesta y predictoras no necesitan estar distribuidas normalmente para ajustar un modelo de regresión lineal.

Si los datos son de series temporales, recopilados secuencialmente a lo largo del tiempo, un gráfico de los residuos a lo largo del tiempo se puede utilizar para determinar si se ha cumplido el supuesto de independencia. Pero esto generalmente no es necesario a menos que sus datos estén ordenados temporalmente.

¿Qué hacemos si vemos un problema en los residuos?

¿Cómo abordamos estos problemas? Podemos usar diferentes estrategias dependiendo de la naturaleza del problema. Por ejemplo, podríamos desarrollar un modelo más complejo, como un modelo polinómico, para tratar la curvatura. O podríamos aplicar una transformación a nuestros datos para resolver problemas de normalidad. OR podríamos analizar posibles valores atípicos, y luego determinar la mejor manera de manejarlos.

En su mayor parte, estos temas están fuera del ámbito de SKP, y recomendamos consultar con un experto en la materia si se encuentra en esta situación. Sin embargo, discutiremos un enfoque para abordar la curvatura en una próxima sección.

Regresemos a nuestro ejemplo de limpieza. Ajustamos un modelo para la  eliminación  como una función de OD.

El gráfico bivariado nos da una buena idea de si un modelo lineal tiene sentido. Las observaciones se dispersan aleatoriamente alrededor de la línea de ajuste, y no hay ningún patrón obvio que indique que un modelo lineal no es adecuado.

Echemos un vistazo a los gráficos de residuos. En el gráfico de residuos por predicción, observamos que los residuos están dispersos aleatoriamente alrededor de la línea central de cero, sin un patrón no aleatorio evidente. Y, aunque el histograma de residuos no parece demasiado normal, un gráfico de cuantiles normales de los residuos no nos da motivo para creer que se haya violado la suposición de normalidad.

El gráfico de residuos por números de fila tampoco muestra ningún patrón obvio, lo que no nos da motivo para creer que los residuos están autocorrelacionados.

Dado que se han cumplido nuestras suposiciones de regresión, podemos proceder a interpretar la salida de la regresión y extraer Inferencias sobre las estimaciones de nuestro modelo. En las secciones siguientes, veremos cómo realizar un análisis residual y cómo interpretar los resultados de una regresión.