Regresión lineal múltiple

¿Qué es la regresión lineal múltiple?

La regresión lineal múltiple se utiliza para modelar la relación entre una variables de respuesta continua y variables explicativas continuas o categóricas.

Cuándo usar la regresión

Izquierda
Azul

Recuerde que la regresión lineal simple puede utilizarse para predecir el valor de una variable de respuesta a partir del valor de una variable predictora continua. Según el contexto, las variables de respuesta y las variables predictoras podrían ser denominadas de otras maneras. Para simplificar, utilizaremos los términos respuesta y predictor a lo largo de esta discusión.

Regresemos a un ejemplo anterior. Utilizando los datos de limpieza, empleamos la regresión lineal simple para modelar la relación entre la respuesta, eliminación, y el predictor, OD.  Descubrimos que un aumento de 1 unidad en OD está asociado con un aumento de 0.53 unidades en eliminación.

Pero, ¿qué hacemos si tenemos más de un predictor variable? Para el ejemplo de limpieza, tenemos tres predictores potenciales: OD, ID y ancho. ¿Cómo podemos ampliar nuestro análisis de eliminación para tener en cuenta los predictores adicionales? Una opción sería ajustar modelos de regresión separados para los distintos predictores.

Vea cómo realizar una regresión lineal múltiple usando software estadístico

https://share.vidyard.com/watch/8AJ1QNbfFXWYTH9yZGsnVC

Continuando con este ejemplo, aprendemos que existe una relación significativo entre ID y eliminación, y que por cada aumento de 1 unidad en ID, eliminación aumenta en promedio 0,65 unidades. También aprendemos que no hay una relación significativa entre eliminación y ancho. En otras palabras, no existe asociación entre los cambios en ancho y los cambios en eliminación.

Sin embargo, ajustar modelos de regresión lineal simple para cada predictor ignora la información en las demás variables.

En lugar de ajustar modelos separados para cada predictor, podemos incluir múltiples predictores en el mismo modelo. Cuando se utiliza más de un predictor, el procedimiento se denomina regresión lineal múltiple.

Recuerde el modelo de regresión lineal desconocido, o verdadero, con un predictor:

Esta ecuación describe cómo la media de Y cambia para valores dados de X. También podemos escribir la ecuación en términos de los valores Observados de Y, en lugar de la media.  Debido a que los valores de datos individuales para cualquier valor dado de X varían aleatoriamente alrededor de la media, debemos tener en cuenta esta variación aleatoria, o error, en la ecuación de regresión. Añadimos la letra griega épsilon a la ecuación para representar el error aleatorio en las Observaciones:

Cuando ajustamos un modelo de Regresión lineal múltiple, Agregamos un coeficiente de pendiente para cada predictor. Para el ejemplo de limpieza, con OD y ID como predictores, el modelo tiene coeficientes de pendiente para ambos predictores.

Cada coeficiente representa el aumento medio en Eliminación por cada aumento de una unidad en ese predictor, manteniendo constante el otro predictor. ¿Qué sucede si tenemos más de dos predictores? Como generalización, digamos que tenemos p predictores. El modelo de Regresión lineal múltiple puede ampliarse para incluir todos los p predictores.

Los modelos de Regresión lineal también incluyen funciones de los predictores, como transformaciones, términos polinómicos y productos cruzados, o interacciones. Y más adelante veremos que los modelos lineales también se pueden ajustar con predictores categóricos.

Un desafío al ajustar modelos de Regresión lineal múltiple es que podríamos necesitar estimar muchos coeficientes.  Aunque el software estadístico moderno puede ajustar fácilmente estos modelos, no siempre es sencillo identificar los predictores importantes e interpretar los coeficientes del modelo. En las Secciones que siguen, hablamos acerca de ajustar e interpretar modelos de Regresión lineal múltiple y algunos de los desafíos involucrados.