El método de mínimos cuadrados

Cuando ajustamos una Línea de regresión a un conjunto de puntos, asumimos que existe una relación lineal desconocida entre Y y X, y que por cada incremento de una unidad en X, Y aumenta en una cantidad fija en promedio. Nuestra Línea de regresión ajustada nos permite predecir la respuesta, Y, para un valor dado de x.

$$ \mu_{Y|X}=\beta_0+\beta_1X_1 $$

Pero para cualquier observación específica, el valor real de Y puede desviarse del valor predicho. Las desviaciones entre los valores reales y los predichos se llaman errores o residuales.

Cuanto mejor se ajuste la línea a los datos, más pequeños serán los residuos (Calculando media). ¿Cómo encontramos la línea de mejor ajuste a los datos? En otras palabras, ¿cómo determinamos los valores de la constante y la pendiente para nuestra línea de regresión? Intuitivamente, si tuviéramos que ajustar una línea manualmente a nuestros datos, intentaríamos encontrar una línea que minimice en general los errores del modelo. Pero, cuando ajustamos una línea a los datos, algunos de los errores serán positivos y otros serán negativos. En otras palabras, algunos de los valores reales serán mayores que su valor predicho (se situarán por encima de la línea), y algunos de los valores reales serán menores que sus valores predichos (se situarán por debajo de la línea).

Si sumamos todos los errores, la suma será cero. Entonces, ¿cómo medimos el error general? Utilizamos un pequeño truco: elevamos al cuadrado los errores y buscamos una línea que minimiza esta suma de los errores al cuadrado.

$$ \sum{e_t}^2=\sum(Y_i-\overline{Y}_i)^2 $$

Este método, el método de los mínimos cuadrados, busca valores del intercepto y del coeficiente de pendiente que minimizan la suma de los errores al cuadrado.

Para ilustrar el concepto de mínimos cuadrados, utilizamos el Módulo de enseñanza Demostrar Regresión.

Visualización del método de mínimos cuadrados

Examinemos el método de los mínimos cuadrados desde otra perspectiva. Imagine que ha representado algunos datos mediante un diagrama de dispersión y que ha ajustado una línea para la media de Y a través de los datos. Protejamos esta línea en su lugar, y coloquemos resortes entre los puntos de datos y la línea.

Algunos de los puntos de datos están más alejados de la línea de la media, por lo que estos resortes se estiran más que otros. Los resortes que se estiran más ejercen la mayor fuerza sobre la línea.

¿Qué pasaría si desbloqueamos esta línea media y la dejamos rotar libremente alrededor de la media de Y? Las fuerzas en los resortes se equilibran, haciendo que la línea gire. La línea rota hasta que la fuerza total sobre la línea se minimiza.

Hay algo de física interesante en juego, que implica la relación entre la fuerza y la energía necesaria para estirar un resorte una distancia determinada. Resulta que minimizar la energía total en los resortes es equivalente a ajustar una línea de regresión utilizando el método de los mínimos cuadrados.