Interpretación de la salida de la regresión

Izquierda
Azul

Anteriormente vimos que se utiliza el método de mínimos cuadrados para ajustar la mejor línea de regresión.

La variación total en nuestros valores de respuesta se puede descomponer en dos componentes: la variación explicada por nuestro modelo y la variación no explicada o Ruido (Figura 1 abajo).

Como se muestra en la figura 2:

  • La total suma de cuadrados, o SST, es una medida de la variación de cada valor de respuesta alrededor de la media de la respuesta. Para cada observación, esta es la diferencia entre el valor de respuesta y la media de respuesta general.
  • La suma de cuadrados del modelo, o SSM, es una medida de la variación explicada por nuestro modelo. Para cada observación, esta es la diferencia entre el valor predicho y la respuesta media general. Esta es la variación que atribuimos a la relación entre X e Y. Tenga en cuenta que a veces esto se informa como SSR, o suma de cuadrados de regresión.
  • La suma de cuadrados del error, o SSE, es una medida del error aleatorio o de la variación no explicada. Para cada observaciones, esta es la diferencia entre el valor: de respuesta y el valor: predicho. Esta es la variación que no está explicada por nuestro modelo de regresión. Esto también se conoce como suma de errores al cuadrado.

Vea cómo usar programas estadístico para interpretar los resultados del análisis

https://share.vidyard.com/watch/vToTgP9WT29sQFz9mi3u68

Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito

Figura 1: La variación total consiste en la variación explicada por el modelo y la variación no explicada (Ruido o Error)

Toda la variación en nuestra respuesta se puede descomponer en suma de cuadrados del modelo o suma de cuadrados del error.

Figura 2: Suma total de cuadrados = suma de cuadrados del modelo + suma de cuadrados del error

Otra forma de pensar en la suma de cuadrados es considerar un triángulo rectángulo. La suma de cuadrados total se puede descomponer en suma de cuadrados de error y de modelo. Compare las sumas de cuadrados para el modelo 1 y el modelo 2. En el modelo 1, más de la variación total en la respuesta no está explicada (SSE) que en el modelo 2. En otras palabras, el modelo 2 explica más de la variación total en la respuesta que el modelo 1.

Figura 3: En el modelo 2, la suma de cuadrados del modelo (SSM) explica más de la variación total

Las sumas de cuadrados se reportan en la tabla de análisis de varianza (ANOVA) (Figura 4). En el contexto de la regresión, el valor preportado en esta tabla (Prob. > f) nos brinda una prueba que nos indica si nuestro modelo en su conjunto es estadísticamente significativo. El valor pse utiliza para probar la hipótesis de que no hay relación entre el predictor y la respuesta. O, dicho de otra manera, el valor pse utiliza para probar la hipótesis de que el verdadero coeficiente de pendiente es cero.

Para el ejemplo de la limpieza, ajustamos un modelo para eliminación frente a DO. Debido a que nuestro valor pes muy pequeño (<.0001), podemos concluir que existe una relación lineal significativa entre la eliminación y la OD.

Figura 4: Tabla ANOVA y tabla de estimación de los parámetros

En una situación de regresión lineal simple, la prueba ANOVA es equivalente a la prueba t reportada en la tabla de estimación de los parámetros para el predictor. Las estimaciones en la tabla de estimaciones de parámetros anterior son los coeficientes de nuestro modelo ajustado. Como hemos discutido, podemos usar este modelo directamente para hacer predicciones.

Eliminación = 4.0989349 + 0.5283959*OD

Más específicamente, podemos usar el modelo para predecir la Removal promedio dentro del rango de valores que observamos para OD. Este es un punto importante. Los valores de OD en nuestra muestra varían de 4 a 24,7. Es importante recordar que extrapolar más allá de este rango puede resultar en predicciones poco realistas o poco fiables.

Figura 5: Extrapolar más allá del rango de valores observados puede llevar a predicciones poco fiables

También podemos construir dos tipos de intervalos con nuestro modelo: intervalos de confianza e intervalos de predicción (Figura 6).  Los intervalos de confianza, que se representan como curvas de confianza, ofrecen un rango de valores para la media predicha para un valor específico del predictor. Las bandas sombreadas representan la incertidumbre en las estimaciones de la línea verdadera.

Figura 6: Intervalos de confianza y intervalos de predicción

Los intervalos de predicción proporcionan un rango de valores donde podemos esperar que las observaciones futuras caigan para un valor: dado del predictor. Los intervalos de predicción son útiles cuando nos interesa usar el modelo para predecir valores individuales de la respuesta.

Las estimaciones de la verdadera pendiente pueden variar de una muestra a otra. Puede haber una gran diferencia en la pendiente de una muestra a otra. Nuestra estimación de la pendiente, 0.5283, es una estimación puntual de la pendiente verdadera y desconocida. Por lo tanto, utilizamos un intervalo de confianza para proporcionar un rango de valores para la pendiente verdadero.

En nuestro ejemplo, el aumento medio en eliminación por cada aumento de 1 unidad en OD se sitúa entre 0,462 y 0,595 (Figura 7).

El intervalo de confianza para la pendiente ofrece una prueba adicional sobre el tamaño del coeficiente de la pendiente. Esto podría ser más fácil de interpretar y explicar que un valor p.  Dado que nuestro intervalo de confianza no contiene el cero, podemos concluir que la pendiente verdadera no es cero.

Figura 7: El intervalo de confianza ofrece una prueba adicional para el tamaño del coeficiente de pendiente

Una estadística popular es R cuadrado, el coeficiente de determinación. RSquare proporciona una medida de la fuerza de la relación lineal entre la respuesta y el predictor. En la regresión lineal simple, R cuadrado es el cuadrado del coeficiente de correlación, r.

Este estadístico, que se encuentra entre 0 y 1, mide la proporción de la Variación total explicada por el modelo.

Figura 8: Medidas adicionales del ajuste del modelo

Cuanto más se acerque R cuadrado a 1, más variación explica el modelo. En nuestro ejemplo, el 84,8584% de la variación en nuestra respuesta, Eliminación, se explica por la variable OD.

Tenga en cuenta que el valor de R cuadrado puede verse influido por una serie de factores, por lo que aquí hay algunas precauciones:

Así que, aunque el valor R cuadrado es una medida útil, y en general un valor más alto de Valor R cuadrado es mejor, no existe un valor de corte para el valor R cuadrado que indique que tenemos un buen modelo. R cuadrado, y la medida similar R cuadrado ajustado, se utilizan mejor para comparar diferentes modelos con los mismos datos. Describimos R cuadrado ajustado en la lección de regresión lineal múltiple.