Análisis residual de regresión múltiple y valores atípicos
Siempre se debe realizar un análisis residual para verificar que se han cumplido las condiciones para extraer Inferencia sobre los coeficientes en un modelo lineal.
Recuerde que, si un modelo lineal tiene sentido, los residuos serán:
- tener una varianza constante
- tener una distribución aproximadamente normal (con una media de cero), y
- ser independientes unos de otros a lo largo del tiempo.
En el ejemplo de impurezas, ajustamos un modelo con tres predictores continuos: Temp, Conc. de catalizador y Tiempo de reacción.
En el gráfico de residuos frente a valores predichos que se muestra a continuación, observamos que los residuos se dispersan aleatoriamente alrededor de la linea central de cero, sin que aparezca ningún patrón evidente de no aleatoriedad.
Vea cómo analizar los residuos utilizando software estadístico
https://share.vidyard.com/watch/KnPQk28yXEgyxmtbXzYmaD
Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito
- Más información inscribiéndose en el módulo de Correlación y Regresión de nuestro curso de estadística en línea.
- Para ver más tutoriales de JMP, visite la Biblioteca de aprendizaje de JMP.
El gráfico de cuantiles normales de los residuos no nos da motivo para creer que los errores no están distribuidos normalmente.
Como los datos están ordenados temporalmente, también examinamos el gráfico de residuos por números de fila para verificar que las observaciones sean independientes a lo largo del tiempo. Este gráfico tampoco muestra ningún patrón obvio, lo que no nos da motivo para creer que los errores del modelo están autocorrelacionados. Tenga en cuenta que hay una prueba formal de autocorrelación disponible, la prueba de Durbin-Watson. Pero esta discusión está fuera del alcance de esta lección.
Una limitación de estos gráficos de residuos es que los residuos reflejan la escala de medición. La desviación estándar de los residuos en diferentes valores de los predictores puede variar, incluso si las varianzas son constantes. Por lo tanto, es difícil usar los residuos para determinar si una observación es un valor atípico o para evaluar si la varianza es constante.
Una alternativa es utilizar residuos estudentizados. Un residuos estudentizados se calcula dividiendo el residuo por una estimación de su desviación estándar. La desviación estándar de cada residuo se calcula excluyendo la observación. Por este motivo, los residuos estudentizados a veces se denominan residuos estudentizados externamente.
Los residuos estudentizados son más efectivos para detectar valores atípicos y evaluar la suposiciones de varianza. El gráfico de residuos estudentizados por números de fila realiza esencialmente una prueba de S para cada residuo. Los residuos estudentizados que caen fuera de los límites rojos son posibles valores atípicos.
Este gráfico no muestra ninguna violación obvia de las suposiciones del modelo. Tampoco vemos valores atípicos obvios ni observaciones inusuales. Examinemos más detenidamente el tema de los valores atípicos y introduzcamos algunos términos. Una observación se considera un valor atípico si es extrema, Relativo a otros valores de respuesta. En contraste, algunas observaciones tienen valores extremadamente altos o bajos para la variable predictora, relativo a los otros valores. Estas se conocen como observaciones de alto apalancamiento. El hecho de que una observación sea un valor atípico o tenga un alto apalancamiento no es necesariamente un problema en la regresión.
Sin embargo, algunas observaciones atípicas o con alto apalancamiento ejercen influencia sobre el modelo de regresión ajustado, sesgando las estimaciones de nuestro modelo. Tomemos, por ejemplo, un escenario sencillo con un valor atípico grave. Esta observación tiene un valor de rendimiento mucho más bajo de lo que esperaríamos, dados los otros valores y la concentración.
El modelo de regresión para **Rendimiento** como función de **Concentración** es significativo, pero tenga en cuenta que la línea de ajuste parece estar inclinada hacia el valor atípico. Podemos ver el efecto de este valor atípico en el gráfico de residuos frente a predichos. La línea central de cero no parece conforme a los puntos.
A modo de ilustración, excluimos este punto del análisis y ajustamos una nueva línea.
Observe el cambio en la pendiente de la línea. La pendiente ahora es más empinada. Un aumento en el valor de Concentración ahora da como resultado una mayor disminución en Rendimiento. Además, cambiar en los estadísticos de ajuste. R cuadrado aumentó de 0,337 a 0,757, y el error cuadrático medio mejoró, cambiando de 1,15 a 0,68. Más de la variación en el rendimiento se explica por la concentración, y como resultado, las predicciones del modelo serán más precisas.
En este ejemplo, el único valor atípico esencialmente determinó el ajuste del modelo. Es fácil visualizar valores atípicos usando diagramas de dispersión y gráficos de los residuos. Pero, ¿cómo determinamos si los valores atípicos son influyentes? Una estadística conocida como d de Cook, o distancia de Cook, nos ayuda a identificar puntos influyentes. La D de Cook mide cuánto cambiarían los coeficientes del modelo si se eliminara una observación del conjunto de datos.
Hay un valor d de Cook para cada observación utilizada para ajustar el modelo. Cuanto mayor es el valor de la distancia de Cook, mayor es la influencia. Las reglas generales comúnmente aceptadas son que los valores D de Cook superiores a 1,0 indican valores influyentes, y cualquier valor que se destaque del resto también podría ser influyente. Para nuestro ejemplo simple de Rendimiento frente a Concentración, el valor D de Cook para el valor atípico es 1.894, lo que confirma que la observación es, de hecho, influyente.
Volviendo a nuestro ejemplo de impureza, ninguno de los valores d de Cook es mayor que 1,0. Por lo tanto, podemos concluir que ninguna observación tiene una influencia excesiva en el modelo.
¿Qué hacemos si identificamos observaciones influyentes? Estas observaciones podrían ser puntos de datos válidos, pero esto debería confirmarse. A veces, las observaciones influyentes son los valores extremos para una o más variables predictoras. Si este es el caso, una solución es recopilar más datos sobre toda la región abarcada por los regresores. También existen métodos estadísticos robustos, que reducen la influencia de los valores atípicos, pero estos métodos están fuera del alcance de este curso.