Multicolinealidad
¿Qué es la multicolinealidad?
El término multicolinealidad se refiere a la condición en la que dos o más predictores de un modelo de regresión están altamente correlacionados entre sí y presentan una fuerte relación lineal.
¿Por qué la multicolinealidad es un problema?
En un contexto de regresión, la multicolinealidad puede dificultar la determinación del efecto de cada predictor sobre la respuesta, y puede complicar la decisión sobre qué variables incluir en el modelo. La multicolinealidad también puede provocar otros problemas:
- Es posible que los coeficientes estén mal estimados o inflados.
- Es posible que los coeficientes tengan signos que no tengan sentido.
- Es posible que los errores estándar de estos coeficientes estén sobreestimados.
Ejemplo de multicolinealidad
Para ilustrarlo, veamos un nuevo ejemplo, Bodyfat. Este conjunto de datos incluye mediciones de 252 hombres. El objetivo del estudio era desarrollar un modelo, basado en mediciones físicas, para predecir el porcentaje de grasa corporal. Nos centramos en un subconjunto de los posibles predictores: el peso (en libras), la altura (en pulgadas) y el IMC (índice de masa corporal).
El peso está altamente correlacionado con el IMC, y está moderadamente correlacionado con la estatura.
Vea cómo evaluar la multicolinealidad utilizando software estadístico
https://share.vidyard.com/watch/nNiS2e4BdQctjX7ZbW7Cu1
Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito
- Más información inscribiéndose en el módulo de Correlación y Regresión de nuestro curso de estadística en línea.
- Descargue una prueba gratuita de JMP para probarlo usted mismo.
Ajustamos un modelo para predecir Fat% en función de estas tres variables. IMC y peso son significativos, y altura es marginalmente significativa.
Sin embargo, el IMC depende tanto del peso como de la altura. Por lo tanto, hay cierta información redundante en estos predictores.
¿Qué sucede si quitamos BMI del modelo?
Observe cómo han cambiado las estimaciones de los parámetros para peso y altura.
- El coeficiente de Peso cambió de negativo a positivo.
- El coeficiente para Altura cambió de positivo a negativo.
Tanto el peso como la altura son ahora también muy significativos. Otro cambio drástico es en la exactitud de las estimaciones. Los errores estándar de peso y altura son mucho mayores en el modelo que contiene el IMC.
Detección de multicolinealidad con el factor de inflación de la varianza (VIF)
Cuando ajustamos un modelo, ¿cómo sabemos si existe un problema de multicolinealidad? Como hemos visto, una matriz de gráficos de dispersión puede apuntar a pares de variables que están en relación. Sin embargo, la multicolinealidad también puede darse entre muchas variables, y es posible que esto no resulte evidente en los gráficos de dispersión bivariantes.
Un método para detectar si la multicolinealidad es un problema consiste en calcular el factor de inflación de la varianza, o VIF. Se trata de una medida de cuánto se infla el error estándar de la estimación del coeficiente debido a la multicolinealidad. El VIF de un predictor se calcula con esta fórmula.
Para una variable predictora dada, un modelo de regresión se ajusta usando esa variable como respuesta y todas las demás variables como predictores. Se calcula el R cuadrado de este modelo y se computa el VIF. Esto se repite para todos los predictores. El valor más pequeño posible de VIF es 1.0, lo que indica una ausencia completa de multicolinealidad. Los estadísticos utilizan el término ortogonal para referirse a las variables que no están correlacionadas en absoluto entre sí.
Un VIF de 10.0 para un predictor corresponde a un valor r cuadrado de 0.90. Del mismo modo, un VIF de 100 corresponde a un r cuadrado de 0.99. Esto significaría que los demás predictores explican el 99 % de la variación en el predictor en cuestión. En la mayoría de los casos, habrá cierto grado de multicolinealidad. Como regla general, un VIF de 5 o 10 indica que la multicolinealidad podría ser problemática. En nuestro ejemplo, todos los VIF son muy elevados, lo que indica que, efectivamente, existe un problema de multicolinealidad.
Una vez que eliminamos el IMC del modelo, los VIF son ahora muy bajos.
En algunos casos, la multicolinealidad puede resolverse eliminando un término redundante del modelo. En los casos más graves, el simple hecho de eliminar un término no resolverá el problema. En estos casos, podrían resultar adecuadas técnicas más avanzadas, como el análisis de componentes principales (PCA) o los mínimos cuadrados parciales (PLS). También se recomiendan otros enfoques de modelización, como los métodos basados en árboles y la regresión penalizada.