Correlación vs. causalidad

La correlación examina la relación entre dos variables. Sin embargo, observar que dos variables se mueven conjuntamente no significa necesariamente que una variable sea la causa de la otra. Por eso solemos decir que "la correlación no implica causalidad".

Una correlación fuerte puede indicar causalidad, pero también es probable que existan otras explicaciones:

  • Puede ser el resultado del azar: las variables parecen estar relacionadas, pero en realidad no hay una relación subyacente.
  • Puede haber una tercera variable al acecho que haga que la relación parezca más fuerte (o más débil) de lo que realmente es.

En los datos observacionales, las correlaciones no pueden confirmar la causalidad...

Las correlaciones entre variables nos indican que existe un patrón en los datos: que las variables que observamos tienden a moverse de manera conjunta. Sin embargo, por sí solas, las correlaciones no nos dicen si los datos se mueven juntos porque una variable causa el movimiento de la otra.

Es posible encontrar una correlación fiable y estadísticamente significativa entre dos variables que en realidad no tienen ninguna relación causal. ¡De hecho, estas correlaciones son comunes! A menudo, este es el caso porque ambas variables están asociadas con una variable causal diferente, que tiende a coincidir con los datos que estamos midiendo.

Ejemplo: el ejercicio y el cáncer de piel

Vamos a verlo con un ejemplo. Imagina que estás mirando datos de salud. Se observa una correlación positiva estadísticamente significativa entre el ejercicio y los casos de cáncer de piel – es decir, las personas que hacen más ejercicio tienden a ser las que padecen cáncer de piel a tasas más altas. La correlación parece significativa y fiable, y podemos observarla en múltiples poblaciones de pacientes. Sin hacer más indagaciones, ¡se podría llegar a la conclusión de que el ejercicio causa cáncer! Basado en estos hallazgos, podrías incluso desarrollar una hipótesis: quizás el estrés del ejercicio hace que el cuerpo pierda cierta capacidad para protegerse contra estos tipos de cáncer. Sin embargo, en general se cree que el ejercicio reduce el riesgo de cáncer, por lo que esa conclusión e hipótesis es cuestionable.

Quizás en realidad, esta correlación existe en sus conjuntos de datos porque la gente que vive en lugares que obtienen mucha luz solar durante todo el año tienen más oportunidades para actividades al aire libre que las personas que viven en lugares que no la reciben. Esta situación se refleja en los datos como un incremento del ejercicio. Al mismo tiempo, mayor exposición diaria a la luz solar significa que hay más casos de cáncer de piel. Ambas variables, las tasas de ejercicio y el cáncer de piel, están afectadas por una tercera variable causal, la cantidad de luz solar, pero no están relacionadas causalmente entre sí.

...pero con estudios empíricos bien diseñados, ¡podemos establecer la causalidad!

Es fundamental para el conocimiento de datos poder distinguir entre aquello que ofrece, o no, una evidencia causal. En el mundo real, la determinación de causalidad nunca es perfecta. Sin embargo, hay una variedad de técnicas experimentales, estadísticas y de diseño de investigación para encontrar evidencia de relaciones causales: p. ej., aleatorización, experimentos controlados y modelos predictivos con múltiples variables. Más allá de las limitaciones intrínsecas de las pruebas de correlación (por ejemplo, las correlaciones miden las relaciones entre pares de variables, y por lo tanto, no pueden explicar una posible relación subyacente con una tercera variable), es importante entender que la evidencia de causalidad generalmente no proviene de datos observacionales, sino de un diseño experimental bien planificado.

Ejemplo: enfermedades de corazón, dieta y ejercicio

Por ejemplo, vamos a imaginar de nuevo que somos investigadores de salud y que esta vez estamos examinando un amplio conjunto de datos sobre las tasas de enfermedades, la dieta y otros hábitos de salud. Supongamos que buscamos que un mayor ejercicio se correlaciona con tasas más bajas de enfermedades cardíacas (una correlación negativa). Esta correlación es grande, y la buscamos de manera fiable. Seguro que esto nos da una pista sobre la causalidad, ¿verdad?

En el caso de estos datos de salud, la correlación puede sugerir una relación causal subyacente, pero sin un trabajo adicional, no la establece. Imagine que después de encontrar esta correlación, como siguiente paso realizamos un estudio biológico que investiga cómo la actividad física afecta al corazón y al sistema circulatorio. Quizás encontremos un mecanismo fisiológico mediante el cual el aumento de la actividad física disminuye la tensión arterial: el ejercicio incrementa la producción de óxido nítrico, lo que provoca que los vasos sanguíneos se dilaten. Una tensión arterial más baja reduce el Riesgo de enfermedad cardiovascular, entre otros riesgos para la salud. Podríamos entonces diseñar un experimento aleatorizado y controlado para estudiar los efectos de la actividad física sobre los niveles de óxido nítrico, y determinar que existe una relación causal entre ambos.

En este ejemplo, observe que nuestra evidencia causal no fue proporcionada por la prueba de correlación en sí misma, que simplemente cuantificó la relación entre variables a partir de datos observacionales (tasas de enfermedad cardíaca y ejercicio reportado). En su lugar, realizamos un experimento controlado para buscar evidencia de que la actividad física puede provocar cambios en los niveles de óxido nítrico.

Por tanto, ¿cómo exploramos la causalidad? ¡Con un tipo de estudio adecuado!

Entender la causalidad es un tema complicado. En el mundo real, nunca tenemos acceso a todos los datos que podríamos necesitar para representar todas las posibles relaciones entre variables. Pero hay algunas estrategias clave para ayudarnos a aislar y explorar los mecanismos entre diferentes variables. Por ejemplo, en un experimento controlado, podemos intentar crear dos grupos muy similares y aplicar al azar un tratamiento o intervención a uno solo de los grupos. El principio de aleatorización es clave en el diseño experimental, porque nos permite hacer inferencias sobre el efecto directo de una variable sobre otra sin preocuparnos de que haya alguna variable causal no medida que coexista con las variables que estamos estudiando.

No siempre es realista ni siquiera posible llevar a cabo un experimento controlado. Pero volvamos al primer ejemplo mencionado anteriormente que describía la aparente relación entre el ejercicio y las tasas de cáncer de piel. ¿Qué tipo de datos necesitaríamos para inferir causalidad? Imaginemos que de alguna manera podemos seleccionar una muestra grande de personas distribuidas en todo el mundo y asignarles al azar que hagan ejercicio en interiores a diferentes niveles cada semana durante décadas. Al final de ese tiempo, registramos las tasas de cáncer de piel para cada grupo de personas que hacen ejercicio. ¡Al final, tendríamos un conjunto de datos diseñado experimentalmente para probar la relación entre ejercicio y cáncer de piel! Como el ejercicio ha sido manipulado directamente en el experimento mediante asignación aleatoria, no estará sistemáticamente relacionado con ninguna otra variable que podría ser diferente entre estos dos grupos (asumiendo que todos los demás aspectos del estudio son válidos). Esto significa que en este caso, dado que nuestros datos se derivaron de un diseño experimental sólido, una correlación (positiva o negativa) entre el ejercicio y el cáncer de piel sería una evidencia significativa de causalidad.