Interpretación de los resultados de los modelos explicativos

Style

section-padding-none

Como discutimos en la lección de regresión lineal simple, podemos usar la regresión por diferentes motivos. Dos objetivos comunes de la regresión son el modelado explicativo y el modelado predictivo. En el modelado explicativo, usamos la regresión para determinar qué variables tienen un efecto sobre la respuesta o ayudan a explicar la respuesta. En este Contexto, generalmente nos interesa identificar los predictores que más nos informan sobre la respuesta, y comprender la magnitud y dirección de los coeficientes del modelo. Es decir, queremos saber cómo cambian los valores de respuesta al cambiar los valores de un predictor determinado.

En el modelado predictivo, empleamos la regresión para crear un modelo que predice con precisión los valores de las variables de respuesta basándose en los valores de los predictores. En este contexto, no nos interesa tanto entender qué predictores son importantes ni estimar los coeficientes del modelo. Estamos interesados en desarrollar un modelo que prediga con precisión los valores de respuesta futuros.

En esta lección, nos enfocamos en la regresión para el modelado explicativo, pero también veremos cómo usar los modelos de regresión con fines predictivos. Discutiremos formalmente el uso de la regresión para el modelado predictivo en otro módulo. Para esta discusión, cambiamos al ejemplo de Impureza. En este escenario, se está produciendo un polímero. Un catalizador es (Obligatorio) para que las reacciones químicas ocurran to producir el polímero. El catalizador contiene un químico que puede crear una impureza en el polímero. La impureza está directamente relacionada con el rendimiento. Es decir, el porcentaje de impureza más el porcentaje de rendimiento es 100.

Utilizamos la regresión para comprender la relación entre la Impureza y tres predictores: Temp, Conc. de Catalizador y Tiempo de Reacción. Aquí se muestra la ecuación de regresión estimada OR ajustada.

Recuerde que en la regresión lineal simple, podemos realizar una prueba de hipótesis para determinar si hay una relación entre la respuesta y el predictor. Probamos la hipótesis nula de que el coeficiente de pendiente verdadero, β₁, es cero. En la regresión múltiple, probamos la hipótesis nula de que todos los coeficientes de regresión son cero, frente a la alternativa de que al menos un coeficiente de pendiente es distinto de cero.

Recuerde que la Razón F es una relación estadística señal-a-ruido. Es una razón de la variación explicada por nuestro modelo (Media de los cuadrados del Modelo) y la variación no explicada (Media de los cuadrados del Error).

Cuando no existe relación entre la respuesta y ninguno de los predictores, el modelo no explicará mucha de la variación en la respuesta. La Media de los cuadrados del modelo y la Media de los cuadrados del error serán aproximadamente iguales, y la Razón F será cercana a 1.

Por otro lado, si la Hipótesis alternativa es verdadera, al menos un coeficiente es distinto de cero. El modelo explicará como mínimo parte de la variación en la respuesta. La Media de los cuadrados del modelo será mayor que la Media de los cuadrados del error, y la Razón F será mayor que 1. Debido a que nuestra Decisión sobre la magnitud de la Razón F puede verse influenciada por el Número de parámetros en el modelo y el Número de observaciones en nuestros conjuntos de datos, no podemos confiar solo en la Razón F para tomar decisiones acerca de nuestra Hipótesis nula.

Afortunadamente, los paquetes de software Estadístico informan valores ppara todas las estadísticas de prueba. Como hemos visto, los valores pmiden la fuerza de la evidencia contra nuestra hipótesis nula. La razón F y el valor pcorrespondiente se informan en la tabla ANOVA. En nuestro ejemplo, la Razón F es 122,8, y el valor pes muy pequeño, inferior a 0,0001. Podemos concluir con seguridad que al menos un término de nuestro modelo es Significativo.

Esto es lo que se conoce como una prueba del modelo completo. La tabla ANOVA nos permite tomar Decisiones acerca de la Significación de nuestro modelo en su conjunto, pero no nos indica qué predictores son Significativos. Para esto, usamos la Información reportada en la tabla de Prueba del Efecto. Esta información también se informa en las tablas resumen.

Las Razones F y los Valores pproporcionan Información sobre si cada predictor individual está relacionado con la respuesta. Estas pruebas se conocen como pruebas parciales, porque cada prueba está Ajustado para los otros predictores del modelo. Como vimos anteriormente, si los predictores están correlacionados, Los valores ppueden cambiar significativamente al agregar o eliminar otras variables del modelo. Tenga en cuenta que hay otros tipos de pruebas para predictores individuales disponibles, pero esta discusión está más allá del alcance de este curso y limitamos nuestra discusión a pruebas *t* parciales.

Volviendo a nuestro ejemplo, ambos Temp y Catalyst Conc son altamente significativos. Pero el tiempo de reacción es No significativo, dados los otros términos del modelo. Los coeficientes de Temp y Catalyst Conc son ambos positivos, lo que indica que a medida que los valores de cada una de estas variables aumentan, manteniendo todo lo demás constante, la Impureza también aumenta.

A comprender mejor cómo cambia la respuesta prevista a medida que cambiamos valores de los predictores individuales, utilizamos el perfilador de predicción. Esto se ilustra en la siguiente Sección. Pero, antes de que nos adelantemos, hay algunos problemas potenciales que debemos Explorar. Al igual que en la regresión lineal simple, debemos revisar nuestros residuos para asegurarnos de que no veamos ningún problema. Se utiliza un Análisis residual para investigar

No linealidad en la relación entre la respuesta y los predictores,
varianza del error no constante, y
autocorrelación, OR no independencia de los errores.

El Análisis residual también puede ayudarnos a identificar valores atípicos u Observaciones inusuales que podrían estar influyendo en nuestro modelo. Dado que estamos tratando con múltiples predictores, hay _Otros... asuntos que debemos considerar.

Primero, está el tema algo complicado de identificar las variables importantes. Podríamos querer agregar predictores adicionales al modelo para explicar Más de la variación en la respuesta. O podríamos querer simplificar el modelo eliminando términos no significativos. También necesitamos identificar si hay correlación entre los predictores o Colinealidad. Esto puede dificultar la identificación de las variables más útiles para explicar la respuesta y puede causar muchos problemas al estimar nuestros coeficientes. Abordamos estos temas en las Secciones siguientes.

layout

2 column

Style

columns-75-25, section-top-padding-xsmall