regresión lineal simple
¿Qué es la regresión lineal simple?
La regresión lineal simple se utiliza para modelar la relación entre dos variables continuas. A menudo, el objetivo es predecir el Valor de una variable de salida (o respuesta) en función del Valor de una variable de entrada (o predictor).
Cuándo usar la regresión
A menudo nos interesa entender las relaciones entre varias variables. Diagramas de dispersión y matrices se pueden utilizar para explorar posibles relaciones entre pares de variables. La correlación ofrece una medida de la asociación lineal entre pares de variables, pero no informa sobre relaciones más complejas. Por ejemplo, si la relación es curvilínea, la correlación podría ser cerca de cero.
Puede usar la regresión para desarrollar una comprensión más formal de las relaciones entre variables. En la regresión, y en el modelado Estadístico en general, queremos modelar la relación entre una variable de salida, o respuesta, y una o más variables de entrada, o factores.
Dependiendo del Contexto, las variables de salida también podrían denominarse Variables dependientes, resultados o simplemente variables Y, y las variables de entrada podrían denominarse variables explicativas, efectos, predictores o variables X.
Podemos utilizar la regresión, y los resultados del modelado de regresión, para determinar qué variables afectan la respuesta o ayudan a explicarla. Esto se conoce como modelado explicativo.
También podemos usar la regresión para predecir los valores de las variables de respuesta a partir de los valores de los predictores más importantes. Esto se conoce generalmente como modelado predictivo. O bien, podemos usar modelos de regresión para optimizar, para determinar la configuración de factores para optimizar una respuesta. Nuestro objetivo de optimización podría ser buscar configuración que conduzcan a una respuesta máximo o a una respuesta mínimo. O el objetivo podría ser alcanzar un Objetivo dentro de un margen aceptable.
Por ejemplo, supongamos que estamos tratando de mejorar el rendimiento del proceso.
- Podríamos usar la regresión para determinar qué variables contribuyen a alto rendimiento,
- Podríamos estar interesados en predecir el rendimiento del proceso para la producción futura, dados los Valores: de nuestros predictores, o
- Podríamos querer identificar configuraciones de factores que lleven a rendimientos óptimos.
También podríamos utilizar el conocimiento obtenido a través de la modelización de regresión para diseñar un experimento que refine nuestro conocimiento del proceso e impulse mejoras adicionales.
Vea cómo realizar una regresión lineal simple utilizando software estadístico
https://www.youtube.com/watch?v=HRyACmHqKrE
- Descargue JMP para seguir el proceso con los datos de muestra incluidos en el programa.
- Para ver más tutoriales de JMP, visite la Biblioteca de aprendizaje de JMP.
Ejemplo de regresión lineal
Considere un ejemplo donde estamos interesados en la limpieza de piezas metálicas.
Tenemos 50 piezas con varios diámetros internos, externos y anchos. Las piezas se limpian usando uno de los tres tipos de contenedores. La limpieza es una medida de las partículas presentes en las piezas. Esto se mide antes y después de ejecutar las piezas a través del proceso de limpieza. La respuesta de interés es la eliminación. Esta es la diferencia entre las medidas de limpieza previa y posterior.
Nos interesa saber si el diámetro interior, el diámetro exterior, el ancho de la pieza y el tipo de contenedor tienen un efecto en la limpieza, pero también nos interesa la naturaleza de estos efectos. La relación que desarrollamos al vincular los predictores a la respuesta es un modelo estadístico o, más específicamente, un modelo de regresión.
El término regresión describe un conjunto general de técnicas utilizadas para modelar una respuesta como función de predictores. Los únicos modelos de regresión que consideraremos en esta discusión son los modelos lineales.
A continuación se muestra un ejemplo de un modelo lineal para los datos de limpieza.
En este modelo, si el diámetro exterior aumenta en 1 unidad, manteniendo el ancho fijo, la eliminación aumenta en 1,2 unidades. De igual manera, si el ancho de la pieza se incrementa en 1 unidad, manteniendo fijo el diámetro exterior, la eliminación aumenta en 0.2 unidades. Este modelo nos permite predecir la eliminación de piezas con diámetros y anchos exteriores dados.
Por ejemplo, la eliminación prevista para piezas con un diámetro exterior de 5 y un ancho de 3 es de 16,6 unidades. En este ejemplo, tenemos dos predictores continuos. Cuando se utiliza más de un predictor, el procedimiento se denomina regresión lineal múltiple.
Cuando se utiliza un único predictor continuo, nos referimos al procedimiento de modelado como regresión lineal simple. Para el resto de esta discusión, nos centraremos en la regresión lineal simple.
Un gráfico de dispersión indica que hay una relación positiva bastante fuerte entre la eliminación y el diámetro exterior. Para entender si OD puede usarse para predecir o estimar la eliminación, ajustamos una línea de regresión. La línea ajustada estima la media de la eliminación para un valor fijo de OD. El valor 4.099 es la constante del modelo y 0.528 es el coeficiente de pendiente. El intercepto, que se utiliza para anclar la línea, estima la eliminación cuando el diámetro exterior es cero. Dado que el diámetro no puede ser cero, la intersección no es de interés directo.
El coeficiente de pendiente estima el aumento promedio en la eliminación por cada incremento de 1 unidad en el diámetro exterior. Es decir, por cada aumento de 1 unidad en el diámetro exterior, la eliminación aumenta en promedio 0.528 unidades.
El modelo de regresión lineal simple
En el ejemplo anterior, recopilamos datos sobre 50 piezas. Ajustamos un modelo de regresión para predecir la eliminación en función del OD de las piezas. Pero, ¿y si hubiéramos muestreado un conjunto diferente de 50 piezas y ajustado una Línea de regresión con estos datos? ¿Esto produciría la misma ecuación de regresión? Ajustando una línea de regresión a los Datos observados, intentamos estimar la verdadera Relación desconocida entre las variables. Esta ecuación de regresión ajustada es solo una estimación del modelo lineal verdadero. En realidad, el modelo lineal verdadero es desconocido.
En la regresión lineal simple, asumimos que, para un valor fijo de un predictor X, la media de la respuesta Y es una función lineal de X. Denotamos esta función lineal desconocida por la ecuación que se muestra aquí, donde b0 es el intercepto y b1 es la pendiente. La línea de regresión que ajustamos a los datos es una estimación de esta función desconocida.
La ecuación de la línea ajustada se representa mediante la siguiente ecuación:
Aquí, N0 y N1 son estimaciones de beta0 y beta1, respectivamente. La notación $\hat{Y}$ (en este caso, Y = Eliminación) indica que la respuesta se estima a partir de los datos y que no es una observación real. En el ejemplo de limpieza, el término independiente, b0, es 4.099 y la pendiente, b1, es 0.528.
Regresión vs. ANOVA
Comparemos la regresión y el análisis de la varianza (ANOVA). En la regresión lineal simple, ambos la respuesta y el predictor son continuos. En ANOVA, la respuesta es continua, pero el predictor, o factor, es nominal. Los resultados están relacionados de manera estadística. En ambos casos, estamos construyendo un modelo lineal generalizado. Pero los objetivos del análisis son diferentes.
La regresión nos proporciona un modelo estadístico que nos permite predecir una respuesta en diferentes valores del predictor, incluidos aquellos valores del predictor que no están incluidos en los datos originales.
ANOVA mide el desplazamiento de la media en la respuesta para las diferentes categorías del factor. Por lo tanto, generalmente se utiliza para comparar las medias de los diferentes niveles del factor.