Interpretación de la salida de la regresión
Anteriormente vimos que se utiliza el método de mínimos cuadrados para ajustar la mejor línea de regresión.
La variación total en nuestros valores de respuesta se puede descomponer en dos componentes: la variación explicada por nuestro modelo y la variación no explicada o Ruido (Figura 1 abajo).
Como se muestra en la figura 2:
- La total suma de cuadrados, o SST, es una medida de la variación de cada valor de respuesta alrededor de la media de la respuesta. Para cada observación, esta es la diferencia entre el valor de respuesta y la media de respuesta general.
- La suma de cuadrados del modelo, o SSM, es una medida de la variación explicada por nuestro modelo. Para cada observación, esta es la diferencia entre el valor predicho y la respuesta media general. Esta es la variación que atribuimos a la relación entre X e Y. Tenga en cuenta que a veces esto se informa como SSR, o suma de cuadrados de regresión.
- La suma de cuadrados del error, o SSE, es una medida del error aleatorio o de la variación no explicada. Para cada observaciones, esta es la diferencia entre el valor: de respuesta y el valor: predicho. Esta es la variación que no está explicada por nuestro modelo de regresión. Esto también se conoce como suma de errores al cuadrado.
Vea cómo usar programas estadístico para interpretar los resultados del análisis
https://share.vidyard.com/watch/vToTgP9WT29sQFz9mi3u68
Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito
- Más información inscribiéndose en el módulo de Correlación y Regresión de nuestro curso de estadística en línea.
- Descargue una prueba gratuita de JMP para probarlo usted mismo.
Toda la variación en nuestra respuesta se puede descomponer en suma de cuadrados del modelo o suma de cuadrados del error.
Otra forma de pensar en la suma de cuadrados es considerar un triángulo rectángulo. La suma de cuadrados total se puede descomponer en suma de cuadrados de error y de modelo. Compare las sumas de cuadrados para el modelo 1 y el modelo 2. En el modelo 1, más de la variación total en la respuesta no está explicada (SSE) que en el modelo 2. En otras palabras, el modelo 2 explica más de la variación total en la respuesta que el modelo 1.
Las sumas de cuadrados se reportan en la tabla de análisis de varianza (ANOVA) (Figura 4). En el contexto de la regresión, el valor preportado en esta tabla (Prob. > f) nos brinda una prueba que nos indica si nuestro modelo en su conjunto es estadísticamente significativo. El valor pse utiliza para probar la hipótesis de que no hay relación entre el predictor y la respuesta. O, dicho de otra manera, el valor pse utiliza para probar la hipótesis de que el verdadero coeficiente de pendiente es cero.
Para el ejemplo de la limpieza, ajustamos un modelo para eliminación frente a DO. Debido a que nuestro valor pes muy pequeño (<.0001), podemos concluir que existe una relación lineal significativa entre la eliminación y la OD.
En una situación de regresión lineal simple, la prueba ANOVA es equivalente a la prueba t reportada en la tabla de estimación de los parámetros para el predictor. Las estimaciones en la tabla de estimaciones de parámetros anterior son los coeficientes de nuestro modelo ajustado. Como hemos discutido, podemos usar este modelo directamente para hacer predicciones.
Eliminación = 4.0989349 + 0.5283959*OD
Más específicamente, podemos usar el modelo para predecir la Removal promedio dentro del rango de valores que observamos para OD. Este es un punto importante. Los valores de OD en nuestra muestra varían de 4 a 24,7. Es importante recordar que extrapolar más allá de este rango puede resultar en predicciones poco realistas o poco fiables.
También podemos construir dos tipos de intervalos con nuestro modelo: intervalos de confianza e intervalos de predicción (Figura 6). Los intervalos de confianza, que se representan como curvas de confianza, ofrecen un rango de valores para la media predicha para un valor específico del predictor. Las bandas sombreadas representan la incertidumbre en las estimaciones de la línea verdadera.
Los intervalos de predicción proporcionan un rango de valores donde podemos esperar que las observaciones futuras caigan para un valor: dado del predictor. Los intervalos de predicción son útiles cuando nos interesa usar el modelo para predecir valores individuales de la respuesta.
Las estimaciones de la verdadera pendiente pueden variar de una muestra a otra. Puede haber una gran diferencia en la pendiente de una muestra a otra. Nuestra estimación de la pendiente, 0.5283, es una estimación puntual de la pendiente verdadera y desconocida. Por lo tanto, utilizamos un intervalo de confianza para proporcionar un rango de valores para la pendiente verdadero.
En nuestro ejemplo, el aumento medio en eliminación por cada aumento de 1 unidad en OD se sitúa entre 0,462 y 0,595 (Figura 7).
El intervalo de confianza para la pendiente ofrece una prueba adicional sobre el tamaño del coeficiente de la pendiente. Esto podría ser más fácil de interpretar y explicar que un valor p. Dado que nuestro intervalo de confianza no contiene el cero, podemos concluir que la pendiente verdadera no es cero.
Una estadística popular es R cuadrado, el coeficiente de determinación. RSquare proporciona una medida de la fuerza de la relación lineal entre la respuesta y el predictor. En la regresión lineal simple, R cuadrado es el cuadrado del coeficiente de correlación, r.
Este estadístico, que se encuentra entre 0 y 1, mide la proporción de la Variación total explicada por el modelo.
Cuanto más se acerque R cuadrado a 1, más variación explica el modelo. En nuestro ejemplo, el 84,8584% de la variación en nuestra respuesta, Eliminación, se explica por la variable OD.
Tenga en cuenta que el valor de R cuadrado puede verse influido por una serie de factores, por lo que aquí hay algunas precauciones:
- Si hay mediciones repetidas para el predictor, el máximo valor posible de R cuadrado será menor que 1. Por lo tanto, tener mediciones repetidas, que generalmente es deseable, resulta en valores más bajos de R cuadrado.
- Además, como vimos con el coeficiente de correlación, los valores atípicos severos pueden inflar artificialmente R cuadrado.
Así que, aunque el valor R cuadrado es una medida útil, y en general un valor más alto de Valor R cuadrado es mejor, no existe un valor de corte para el valor R cuadrado que indique que tenemos un buen modelo. R cuadrado, y la medida similar R cuadrado ajustado, se utilizan mejor para comparar diferentes modelos con los mismos datos. Describimos R cuadrado ajustado en la lección de regresión lineal múltiple.