Korrelation vs. Kausalität
Korrelation prüft, ob eine Beziehung zwischen zwei Variablen besteht. Wenn beobachtet wird, dass sich zwei Variablen gemeinsam verändern, bedeutet dies jedoch nicht unbedingt, dass wir wissen, ob eine Variable das Auftreten der anderen verursacht. Daher sagen wir häufig: „Eine Korrelation impliziert keinen Kausalzusammenhang.“
Eine starke Korrelation kann möglicherweise auf eine Kausalität hindeuten, aber es könnte ebenso gut andere Erklärungen geben:
- Sie kann auf reinem Zufall beruhen, wobei die Variablen in Zusammenhang zu stehen scheinen, jedoch keine wahre Beziehung zugrunde liegt.
- Es könnte eine dritte, verborgene Variable geben, die die Beziehung stärker (oder schwächer) erscheinen lässt, als sie tatsächlich ist.
Für Beobachtungsdaten kann aus Korrelationen keine Kausalität bestätigt werden …
Korrelationen zwischen Variablen zeigen uns, dass ein Muster in den Daten vorhanden ist: dass die Variablen, die wir uns ansehen, sich tendenziell gemeinsam verändern. Korrelationen allein können uns jedoch nicht zeigen, ob unsere Daten sich gemeinsam verändern, weil eine Variable die andere verursacht.
Es ist möglich, eine statistisch signifikante und zuverlässige Korrelation für zwei Variablen zu finden, zwischen denen keinerlei kausaler Zusammenhang besteht. Solche Korrelationen kommen sogar häufig vor! Oft ist dies der Fall, weil beide Variablen mit einer anderen kausalen Variablen verbunden sind, die oft gleichzeitig mit den Daten auftritt, die wir messen.
Zum Beispiel: Sport und Hautkrebs
Betrachten wir dies anhand eines Beispiels. Stellen Sie sich vor, Sie untersuchen Gesundheitsdaten. Sie beobachten eine statistisch signifikante positive Korrelation zwischen sportlicher Betätigung und Fällen von Hautkrebs – das heißt, die Menschen, die mehr Sport treiben, neigen dazu, häufiger an Hautkrebs zu erkranken. Diese Korrelation erscheint stark und zuverlässig und zeigt sich in mehreren Patientenpopulationen. Ohne weitere Nachforschungen könnten Sie schlussfolgern, dass Sport auf irgendeine Weise Krebs verursacht! Auf Grundlage dieser Ergebnisse könnten Sie womöglich sogar folgende Hypothese entwickeln: Vielleicht führt die Belastung durch die sportliche Betätigung dazu, dass der Körper die Fähigkeit verliert, sich vor diesen Krebsarten zu schützen. Allerdings wird allgemein angenommen, dass Sport das Krebsrisiko senkt, was diese Schlussfolgerung und Hypothese in Frage stellt.
Vielleicht besteht diese Korrelation in Ihren Daten in Wirklichkeit, weil Menschen, die an Orten leben, an denen das ganze Jahr viel die Sonne scheint, mehr Möglichkeiten zur Erholung im Freien haben als Menschen, die an anderen Orten leben. Diese Situation zeigt sich in ihren Daten als erhöhte sportliche Betätigung. Gleichzeitig bedeutet eine erhöhte Einwirkung von Sonnenstrahlen, dass mehr Fälle von Hautkrebs auftreten. Beide Variablen – die Häufigkeit für sportliche Betätigung und Hautkrebs – werden durch eine dritte, kausale Variable beeinflusst – die Menge an Sonnenlicht – stehen aber nicht in einer kausalen Beziehung zueinander.
… aber mit gut konzipierter empirischer Forschung können wir einen Kausalzusammenhang ermitteln!
Unterscheiden zu können, was Beweise für Kausalität liefert oder nicht, ist ein wesentlicher Aspekt im kompetenten Umgang mit Daten. Die Ermittlung der Kausalität ist in der Praxis nie perfekt. Doch es gibt eine Vielzahl an experimentellen, statistischen und Forschungsdesigntechniken, um Beweise für kausale Beziehungen zu finden: z. B. Randomisierung, Kontrollexperimente und Vorhersagemodelle mit mehreren Variablen. Über die inhärenten Beschränkungen von Korrelationstests hinaus (z. B. messen Korrelationen Beziehungen zwischen Paaren von Variablen und können daher eine mögliche zugrunde liegende Beziehung mit einer dritten Variablen nicht berücksichtigen), ist es wichtig zu verstehen, dass Beweise für Kausalität typischerweise nicht aus Beobachtungsdaten, sondern aus einer sorgfältigen Versuchsplanung stammen.
Beispiel: Herzkrankheit, Ernährung und Sport
Stellen Sie sich zum Beispiel vor, dass wir wieder Gesundheitsforscher sind und dieses Mal einen großen Datensatz von Krankheitsraten, Ernährung und anderem Gesundheitsverhalten untersuchen. Angenommen, wir finden heraus, dass vermehrte körperliche Betätigung mit einer geringeren Herzkrankheitsrate korreliert (eine negative Korrelation). Diese Korrelation ist ausgeprägt und lässt sich zuverlässig nachweisen. Sicher liefert dies einen Hinweis zur Kausalität, nicht wahr?
Bei den vorliegenden Gesundheitsdaten könnte die Korrelation auf eine zugrunde liegende kausale Beziehung hinweisen, doch ohne zusätzliche Analysen kann dies nicht bestätigt werden. Stellen Sie sich vor, dass wir, nachdem wir diese Korrelation gefunden haben, als nächsten Schritt eine biologische Studie durchführen, die untersucht, wie sich körperliche Betätigung auf das Herz-Kreislauf-System auswirkt. Vielleicht finden wir einen physiologischen Mechanismus, durch den erhöhte körperliche Betätigung den Blutdruck senkt: beim Sport bildet der Körper mehr Stickstoffmonoxid, wodurch sich die Blutgefäße erweitern. Ein niedriger Blutdruck senkt das Risiko für Herz-Kreislauf-Erkrankungen sowie andere Gesundheitsprobleme. Wir könnten im Anschluss einen randomisierten Kontrollversuch planen, um die Auswirkungen von Sport auf die Stickstoffmonoxidwerte zu untersuchen und festzustellen, ob zwischen beiden ein kausaler Zusammenhang besteht.
In diesem Beispiel ist zu beachten, dass der Beweis für Kausalität nicht durch den Korrelationstest selbst erbracht wurde, da dieser lediglich die Beziehung zwischen Variablen anhand von Beobachtungsdaten quantifiziert hat (Häufigkeit von Herzkrankheiten und berichtete körperliche Betätigung). Stattdessen haben wir einen Kontrollversuch gemacht, um nachzuweisen, dass Sport tatsächlich Veränderungen der Stickstoffmonoxidwerte verursachen kann.
Wie erforschen wir Kausalität? Mit der richtigen Untersuchung!
Kausalität zu verstehen ist eine komplexe Herausforderung. In der Praxis stehen uns nie alle Daten zur Verfügung, um sämtliche Zusammenhänge zwischen Variablen genau zu erfassen. Es gibt jedoch einige zentrale Strategien, mit denen sich die Mechanismen zwischen verschiedenen Variablen isolieren und untersuchen lassen. Zum Beispiel können wir in einem Kontrollversuch sorgfältig zwei vergleichbare Gruppen zusammenstellen und per Zufallsprinzip eine Behandlung oder einen Eingriff nur einer der Gruppen zuweisen. Das Prinzip der Randomisierung ist entscheidend im Versuchsplan, da es uns ermöglicht, Rückschlüsse auf den direkten Einfluss einer Variablen auf eine andere zu ziehen, ohne befürchten zu müssen, dass eine unbeobachtete Drittvariable gleichzeitig mit den untersuchten Variablen auftritt.
Es ist nicht immer realistisch oder überhaupt möglich, einen Kontrollversuch durchzuführen. Kehren wir nun zu unserem ersten Beispiel zurück, das die scheinbare Beziehung zwischen der Häufigkeit von sportlicher Betätigung und Hautkrebs beschreibt. Welche Art von Daten würden wir benötigen, um Kausalität abzuleiten? Stellen wir uns vor, wir könnten eine große, global verteilte Stichprobe von Menschen nehmen und ihnen nach dem Zufallsprinzip unterschiedliche Mengen an sportlicher Betätigung in Innenräumen zuweisen, die sie jahrzehntelang wöchentlich auszuführen haben. Am Ende dieses Zeitraums erfassen wir die Hautkrebsraten für jede einzelne Gruppe. Am Ende hätten wir einen Datensatz, der durch eine gezielte Versuchsplanung darauf ausgelegt ist, den Zusammenhang zwischen Sport und Hautkrebs zu analysieren! Weil die Betätigung im Versuch zufällig verteilt wurde, hängt sie nicht automatisch mit anderen Variablen zusammen, die sich zwischen den Gruppen unterscheiden könnten (vorausgesetzt, alle anderen Aspekte sind valide). Das heißt in diesem Fall, weil unsere Daten aus einer fundierten Versuchsplanung stammen, dass eine Korrelation (positiv oder negativ!) zwischen Sport und Hautkrebs ein aussagekräftiger Beweis für Kausalität wäre.