Corrélation et causalité
La corrélation détermine une relation entre deux variables. Cependant, le fait que ces deux variables évoluent ensemble ne signifie pas nécessairement qu'une variable est la cause de l'autre. C'est pourquoi on dit que la corrélation n'implique pas la causalité.
Une forte corrélation pourrait indiquer un lien de cause à effet, mais il pourrait y avoir bien d'autres explications :
- Cela peut être le fruit du hasard, lorsque les variables semblent être liées, mais qu'il n'existe aucune véritable relation sous-jacente.
- Il peut y avoir une troisième variable qui rôde et donne une apparence plus forte (ou plus faible) à la relation qu'elle ne l'est vraiment.
Pour les données observationnelles, les corrélations ne peuvent pas confirmer la causalité...
Les corrélations entre les variables mettent en évidence une tendance dans les données : les variables observées évoluent souvent de concert. une corrélation ne suffit pas à déterminer si ce lien existe parce que l'une des variables influence l'autre.
Il est possible de trouver une corrélation statistiquement significative et fiable entre deux variables qui, en réalité, n’ont aucun lien de causalité. Ce phénomène est d’ailleurs fréquent . Souvent, il s’explique par le fait que les deux variables sont toutes deux liées à une autre variable causale, qui a tendance à apparaître en même temps que les données que nous mesurons.
Exemple : activité physique et cancer de la peau
Partons de cet exemple. Imaginez que vous avez des données médicales. Vous observez une corrélation positive, statistiquement significative, entre l’exercice physique et les cas de cancer de la peau : autrement dit, les personnes qui font plus d’exercice semblent aussi être celles qui présentent un taux plus élevé de cancers de la peau. Cette corrélation paraît solide et fiable, et se retrouve dans plusieurs populations de patients. Sans investigation plus poussée, on pourrait en conclure que l’activité physique provoque, d’une manière ou d’une autre, ce type de cancer ! D'après ces résultats, vous pourriez même développer une hypothèse : peut-être que le stress dû à l'activité physique prive l'organisme de sa capacité à se protéger contre ces types de cancers. Mais puisque l’exercice est généralement reconnu comme un facteur de réduction du risque de cancer, cette conclusion et l’hypothèse qui l’accompagne doivent être considérées avec prudence.
Peut-être qu’en réalité, cette corrélation s’explique par le fait que les personnes vivant dans des régions très ensoleillées toute l’année ont davantage d’occasions de pratiquer des activités de plein air que celles vivant dans des zones moins ensoleillées. Cette situation se traduit dans les données par un niveau d’activité physique plus élevé. Dans le même temps, une exposition accrue au soleil entraîne un plus grand nombre de cas de cancer de la peau. Les deux variables (taux d’exercice et incidence du cancer de la peau) sont affectées par une troisième variable causale (quantité de lumière du soleil), sont donc influencées par une troisième variable causale, la quantité de soleil, mais elles ne sont pas liées par un rapport de cause à effet.
...mais avec des recherches empiriques bien conçues, on peut établir une causalité !
Faire la distinction entre ce qui constitue ou non une preuve de causalité est essentiel à la culture des données. Dans le monde réel, établir un lien de causalité n’est jamais parfait. Il existe toutefois différentes approches expérimentales, statistiques et méthodologiques pour apporter des éléments de preuve de relations causales : omme la randomisation, les expériences contrôlées ou les modèles prédictifs intégrant plusieurs variables. Au-delà des limites inhérentes aux tests de corrélation — qui mesurent les relations entre paires de variables et ne peuvent donc pas prendre en compte un lien sous-jacent avec une troisième variable — il est important de retenir que les preuves de causalité proviennent le plus souvent non pas de données purement observationnelles, mais d’une conception expérimentale rigoureuse.
Exemple : maladie cardiaque, régime alimentaire et activité physique
Par exemple, imaginez à nouveau que nous sommes des chercheurs dans le domaine de la santé, et que nous examinons cette fois un vaste ensemble de données sur les taux de maladies, l’alimentation et et d’autres habitudes de vie. Supposons que nous trouvions qu’une activité physique accrue est corrélée à des taux plus faibles de maladies cardiaques (une corrélation négative). Cette corrélation est importante, et nous la trouvons fiable. C'est sûrement un indice de causalité, n’est-ce pas ?
Dans le cas de ces données médicales, la corrélation pourrait suggérer un lien de cause à effet sous-jacent, mais sans étude supplémentaire, rien n'est sûr. Imaginons qu’après avoir trouvé cette corrélation, comme étape suivante, nous réalisons une étude biologique qui examine comment l’activité physique influence le cœur et le système circulatoire. Peut-être découvririons-nous un mécanisme physiologique par lequel une activité physique accrue réduit la pression artérielle : l’exercice augmente la production d’oxyde nitrique, ce qui provoque l’élargissement des vaisseaux sanguins. Une pression artérielle plus basse diminue le risque de maladies cardiovasculaires, ainsi que d’autres risques pour la santé. Nous pourrions alors concevoir une expérience randomisée et contrôlée afin d’étudier les effets de l’activité physique sur les niveaux d’oxyde nitrique et confirmer l’existence d’une relation causale entre les deux.
Dans cet exemple, il est important de noter que la preuve de causalité ne provient pas du test de corrélation en lui-même, qui s’est limité à quantifier la relation entre variables à partir de données observationnelles (taux de maladies cardiaques et activité physique déclarée). C’est grâce à une expérience contrôlée que nous avons pu recueillir des éléments montrant que l’activité physique peut Modifier... des changements dans les niveaux d’oxyde nitrique.
Alors comment explorer la causalité ? Avec le bon type d'analyse !
Comprendre la causalité n'est pas chose aisée. Dans le monde réel, nous n'avons jamais accès à toutes les données dont nous pourrions avoir besoin pour cartographier chaque relation possible entre les variables. Il existe toutefois des stratégies clés pour isoler et explorer les mécanismes reliant différentes variables. Par exemple, dans une expérience contrôlée, on peut former deux groupes comparables, puis appliquer de façon aléatoire un traitement ou une intervention à un seul d’entre eux. Le principe de randomisation est fondamental en conception expérimentale, car il permet de tirer des conclusions sur l’effet direct d’une variable sur une autre, sans craindre qu’une variable causale non mesurée interfère avec celles étudiées.
Il n’est pas toujours réaliste, ni même possible, de mener une expérience contrôlée. Mais revenons au premier exemple, qui évoquait la relation apparente entre l’activité physique et les taux de cancer de la peau.De quel type de données aurions-nous besoin pour établir un lien de causalité ?Imaginons que nous puissions, d’une manière ou d’une autre, constituer un large échantillon de personnes réparties dans le monde et les assigner aléatoirement à différents niveaux d’activité physique en intérieur chaque semaine, pendant plusieurs décennies. À la fin de cette période, nous mesurerions les taux de cancer de la peau dans chaque groupe. Nous obtiendrions ainsi un ensemble de données conçu spécifiquement pour tester la relation entre activité physique et cancer de la peau ! Comme l’activité physique aurait été directement manipulée dans l’expérience grâce à l’assignation aléatoire, elle ne serait pas liée de façon systématique à d’autres variables pouvant différer entre les groupes (en supposant que tous les autres aspects de l’étude soient valides). Dans ce cas, puisque nos données proviendraient d’une conception expérimentale rigoureuse, une corrélation — qu’elle soit positive ou négative — entre l’exercice et le cancer de la peau *constituerait* une preuve significative de causalité.