Ajuste de curvas
Ajuste de un modelo con curvatura
En este ejemplo, una pelota se dejó caer desde el reposo en el momento 0 segundos desde una altura de 400 cm. La distancia que la pelota había caído (en centímetros) fue registrada por un sensor en varios momentos.
¿Cómo describiría la relación entre estas dos variables?
Ajustamos un modelo de regresión, utilizando la Distancia (cm) como respuesta y el Tiempo (seg) como predictor.
¿Qué tan bien describe una línea recta la relación entre estas dos variables?
Parece que hay cierta curvatura en la relación entre las dos variables que la línea recta no logra capturar. Algunos puntos están sistemáticamente por encima de la línea, y otros por debajo de la línea.
Sin embargo, existe una tendencia a Ignorar la salida gráfica y centrarse primero en la salida Estadístico.
Observe que ambos el modelo y el coeficiente de pendiente lineal son altamente Significativo, y que más del 95% de la variabilidad en la **Distancia (cm)** se explica por el **Tiempo (seg)**.
Pero, ¿deberíamos usar este modelo para hacer predicciones? Una buena práctica, antes de interpretar la salida estadística, es examinar las visualizaciones de los datos y los residuos. Echemos un vistazo a los gráficos de residuos.
Observe el patrón curvo en el Gráfico de residuos. Este Gráfico muestra la variación restante después de ajustar nuestro modelo lineal. En este ejemplo, el gráfico amplifica el patrón sutil que observamos en el gráfico bivariado. El Gráfico de residuos también proporciona perspectivas sobre cómo podríamos mejorar nuestro modelo. En este caso, podríamos necesitar un modelo más complejo, uno que aborde la curvatura que observamos.
Para explicar esta curvatura, podríamos ajustar un modelo polinómico de segundo orden a los datos. Para este ejemplo, el modelo polinómico parece hacer un mejor trabajo al explicar la relación entre Tiempo (seg) y Distancia (cm).
El gráfico de residuos frente a predicción ahora se ve mucho mejor. No hay un patrón obvio, y los residuos parecen estar dispersos alrededor de cero.
Observando R cuadrado, vemos que casi toda la variación en la respuesta es explicada por el modelo. El modelo sigue siendo muy significativo, y hay un nuevo término en la tabla de estimación de los parámetros. Este es un efecto cuadrático. Ambos el término lineal y el efecto cuadrático son muy significativos.
Así que, aunque nuestro modelo lineal inicial era significativo, el modelo se mejora con la adición de un efecto cuadrático. Tenga en cuenta que este modelo todavía se considera un modelo lineal porque el término cuadrático se añadió de manera lineal.
Distancia (cm) = -125.3911 + 492.0476*Tiempo (seg) + 486.55399*(Tiempo (seg)-0.51619)2
En este modelo, observe cómo se escribe el término cuadrático. El tiempo (seg) se escribe como (El tiempo (seg) -0.51619)2. Esto significa que el polinomio ha sido centrado. Los valores de tiempo (seg) fueron centrado por restando la media.
El centrado de polinomios es una técnica estándar utilizada al ajustar modelos lineales con términos de orden superior. Conduce a las mismas predicciones del modelo, pero realiza un mejor trabajo al estimar los coeficientes del modelo.
En este ejemplo, el análisis residual señaló un problema, y tenía sentido ajustar un modelo polinomial. En la mayoría de los escenarios de la vida real, ajustar el mejor modelo posible cuando hay patrones inusuales en los datos no es tan sencillo.
Por ejemplo, podría ser necesario aplicar una transformación a la respuesta o al predictor. O podrías estar pasando por alto otros efectos importantes que explican la relación. La decisión sobre cómo proceder con el análisis debe guiarse por el conocimiento del tema y el contexto del problema.