Chi-Quadrat-Test auf Unabhängigkeit

Was ist der Chi-Quadrat-Test auf Unabhängigkeit?

Der Chi-Quadrat-Test auf Unabhängigkeit ist ein statistischer Hypothesentest und wird verwendet, um zu prüfen, ob zwei kategoriale oder nominale Variablen mit hoher Wahrscheinlichkeit in Relation zueinander stehen.

Wann kann ich den Test nutzen?

Diesen Test können Sie benutzen, wenn die Häufigkeiten von Werten für zwei kategoriale Variablen gegeben sind.

Kann ich den Test benutzen, wenn die Häufigkeiten in einer Tabelle angegeben sind?

Ja. Wenn Sie nur eine tabellarische Darstellung der Häufigkeitswerte haben, können Sie den Test trotzdem nutzen.

Den Chi-Quadrat-Test auf Unabhängigkeit anwenden

Der Chi-Quadrat-Test auf Unabhängigkeit prüft, ob zwei Variablen mit hoher Wahrscheinlichkeit in Relation zu einander stehen. Gegeben sind Häufigkeiten für zwei kategoriale oder nominale Variablen. Außerdem nehmen wir an, dass die beiden Variablen in keiner Relation zu einander stehen. Der Test bietet uns eine Möglichkeit zur Entscheidung, ob unsere Annahme plausibel ist.

In den folgenden Abschnitten besprechen wir, was für den Test erforderlich ist, wie Sie den Test durchführen sowie die Ergebnisse auswerten und wie statistische Einzelheiten und p-Werte zu verstehen sind.

Was brauchen wir?

Für den Chi-Quadrat-Test auf Unabhängigkeit brauchen wir zwei Variablen. Unsere Annahme lautet, dass die Variablen nicht in Beziehung zueinanderstehen. Hier sind einige Beispiele zum besseren Verständnis:

Wir haben eine Liste mit Filmgenres; das ist unsere erste Variable. Unsere zweite Variable ist die Frage, ob die Zuschauer dieser Genres im Kino Snacks gekauft haben. Unsere Annahme (oder in Statistik-Fachbegriffen ausgedrückt, unsere Null-Hypothese) lautet, dass die Art des Films und die Tatsache, dass Personen Snacks kaufen, nicht zueinander in Beziehung stehen. Der Betreiber des Kinos möchte schätzen, wie viele Snacks gekauft werden müssen. Wenn Filmtyp und Snack-Kauf nicht miteinander in Beziehung stehen, wird die Schätzung einfacher, als wenn der Filmtyp den Snack-Verkauf beeinflusst.
Eine Tierklinik führt eine Liste mit Hunderassen, die dort behandelt werden. Die zweite Variable ist, ob die Halter Trockenfutter, Nassfutter oder eine Mischung geben. Unsere Annahme ist, dass Hunderasse und Futtertyp nicht in Beziehung zueinander stehen. Wenn das stimmt, kann die Klinik Futter basierend auf der Gesamtanzahl der Hunde bestellen und muss die Variable „Rassen“ nicht berücksichtigen.

Für einen gültigen Test brauchen wir:

Datenwerte, die eine einfache zufällige Stichprobe der untersuchten Population darstellen.
Zwei kategoriale oder nominale Variablen. Verwenden Sie den Test auf Unabhängigkeit nicht bei stetigen Variablen, die Kategoriekombinationen definieren. Die Häufigkeiten für die Kombinationen der beiden kategorialen Variablen werden jedoch stetig sein.
Für jede Kombination der Niveaus beider Variablen brauchen wir mindestens fünf erwartete Werte. Wenn wir auch nur bei einer Kombination weniger als fünf haben, sind die Testergebnisse nicht aussagekräftig.

Beispiel für einen Chi-Quadrat-Test auf Unabhängigkeit

Sehen wir uns das Beispiel mit den Kino-Snacks näher an. Angenommen wir erfassen die Daten von 600 Personen in unserem Kino. Für jede Person kennen wir die Art des Films, den sie gesehen hat, und ob sie Snacks gekauft hat.

Beantworten wir zunächst die folgende Frage: Ist der Chi-Quadrat-Test auf Unabhängigkeit eine geeignete Methode, um die Beziehung zwischen der Filmart und einem Snack-Kauf zu beurteilen?

Wir haben eine einfache zufällige Stichprobe von 600 Personen, die sich in unserem Kino einen Film angesehen haben. Diese Anforderung erfüllen wir.
Unsere Variablen sind der Filmtyp und die Frage, ob Snacks gekauft wurden. Beide Variablen sind kategorial. Diese Anforderung erfüllen wir.
Die letzte Voraussetzung bedingt, dass es mehr als fünf erwartete Werte für jede Kombination der beiden Variablen gibt. Um das zu prüfen, müssen wir die Gesamthäufigkeit jedes Filmtyps und die Gesamthäufigkeit für den jeweiligen Fall kennen, dass Snacks gekauft wurden oder keine Snacks gekauft wurden. Aktuell nehmen wir einfach an, dass diese Voraussetzung erfüllt ist, und prüfen sie später.

Offenbar haben wir eine gültige Methode gewählt. (Wir müssen immer noch prüfen, ob mehr als fünf Werte für jede Kombination erwartet werden.)

Hier sind unsere Daten zusammengefasst in einer Kontingenztabelle:

Tabelle 1: Kontingenztabelle für Kino-Snackdaten

Filmgenre	Snacks	Keine Snacks
Aktion	50	75
Komödie	125	175
Familienfilm	90	30
Horror	45	10

Bevor wir fortfahren, prüfen wir die Annahme von fünf erwarteten Werten pro Kategorie. Die Daten weisen mehr als fünf Häufigkeiten pro Kombination von Filmgenre und Snacks auf. Doch wie lauten die erwarteten Häufigkeiten, wenn Filmgenre und Snack-Kauf unabhängig sind?

Die erwartete Häufigkeit ermitteln

Um die erwarteten Häufigkeiten für jede Film-Snack-Kombination zu ermitteln, brauchen wir zuerst die Zeilen- und Spaltensummen, die unten zu sehen sind:

Tabelle 2: Kontingenztabelle für Kino-Snackdaten mit Zeilen- und Spaltensummen

Filmgenre	Snacks	Keine Snacks	Zeilensummen
Aktion	50	75	125
Komödie	125	175	300
Familienfilm	90	30	120
Horror	45	10	55
Spaltensumme	310	290	GESAMTSUMME = 600

Die erwarteten Häufigkeiten für jede Film-Snack-Kombination basieren auf den Zeilen- und Spaltensummen. Wir multiplizieren die Zeilensumme mit der Spaltensumme und teilen dann durch die Gesamtsumme. So erhalten wir die erwartete Häufigkeit für jede Zelle in der Tabelle. Für die Zelle „Action-Snacks“ erhalten wir beispielsweise:

$ \frac{125\times310}{600} = \frac{38,750}{600} = 65 $

Wir haben die Antwort auf die nächste Ganzzahl aufgerundet. Wenn keine Beziehung zwischen Filmtyp und Snack-Kauf besteht, erwarten wir, dass sich 65 Personen einen Action-Film angesehen und Snacks gekauft haben.

Hier sehen Sie die beobachteten und erwarteten Häufigkeiten für jede Filmgenre-Snack-Kombination. In jeder Zelle der folgenden Tabelle 3 wird die erwartete Häufigkeit in Fettschrift unter der beobachteten Häufigkeit angezeigt. Die erwarteten Häufigkeiten sind auf die nächste Ganzzahl gerundet.

Tabelle 3: Kontingenztabelle für Kino-Snackdaten zeigt beobachtete vs. erwartete Häufigkeiten

Filmgenre	Snacks	Keine Snacks	Zeilensummen
Aktion	50 65	75 60	125
Komödie	125 155	175 145	300
Familienfilm	90 62	30 58	120
Horror	45 28	10 27	55
Spaltensumme	310	290	GESAMTSUMME = 600

Wenn Sie Software benutzen, werden diese berechneten Werte mit „erwartete Werte“, „erwartete Zellenhäufigkeiten“ oder einem ähnlichen Begriff bezeichnet.

Alle erwarteten Häufigkeiten für unsere Daten sind größer als fünf, also erfüllen wir die Anforderungen für den Einsatz des Tests auf Unabhängigkeit.

Bevor wir die Prüfgröße berechnen, sehen wir uns noch einmal die Kontingenztabelle an. Die erwarteten Häufigkeiten basieren auf den Zeilen- und Spaltensummen. Wenn wir uns die Zellen ansehen, erkennen wir, dass einige erwartete Häufigkeiten nah bei den beobachteten Häufigkeiten liegen, die meisten jedoch nicht. Wenn kein Zusammenhang zwischen Filmgenre und Snack-Kauf besteht, sind die beobachteten und erwarteten Häufigkeiten ähnlich. Wenn ein Zusammenhang besteht, werden sich die beobachteten und erwarteten Häufigkeiten unterscheiden.

Ein häufiger Fehler in Zusammenhang mit den erwarteten Häufigkeiten besteht darin, einfach die Gesamtsumme durch die Anzahl der Zellen zu teilen. Für unsere Filmdaten wäre das 600 / 8 = 75. Das ist falsch. Wir kennen die Zeilen- und Spaltensummen. Diese Werte sind fest und können sich bei unseren Daten nicht verändern. Die erwarteten Werte basieren auf den Zeilen- und Spaltensummen, nicht nur auf der Gesamtsumme.

Den Test durchführen

Die grundlegende Idee bei der Berechnung der Prüfgröße ist der Vergleich der beobachteten und erwarteten Werte anhand der Zeilen- und Spaltensummen unserer Daten. Zuerst berechnen wir die Differenz zwischen den beobachteten und erwarteten Werten für jede Film-Snack-Kombination. Anschließend quadrieren wir die Differenz. Durch die Quadrierung erhalten Kombinationen mit weniger und mehr beobachteten als erwarteten Werten dieselbe Gewichtung. Als Nächstes teilen wir durch den erwarteten Wert für die Kombination. Wir addieren diese Werte für jede Film-Snack-Kombination. So erhalten wir unsere Prüfgröße.

Mit den Zahlen aus unserem Beispiel ist das leichter zu verstehen. Tabelle 4 unten zeigt die Berechnungen für jede Film-Snack-Kombination, die auf zwei Dezimalstellen angegeben wurde.

Tabelle 4: Vorbereitung zur Berechnung unserer Prüfgröße

Filmgenre	Snack	Keine Snacks
Aktion	Beobachtet: 50 Erwartet: 64,58	Beobachtet: 75 Erwartet: 60,42
Aktion	Differenz: 50 – 64,58 = –14,58 Quadrierte Differenz: 212,67 Geteilt durch „Erwartet”: 212,67 / 64,58 = 3,29	Differenz: 75 – 60,42 = 14,58 Quadrierte Differenz: 212,67 Geteilt durch „Erwartet”: 212,67 / 60,42 = 3,52
Komödie	Beobachtet: 125 Erwartet: 155	Beobachtet: 175 Erwartet: 145
Komödie	Differenz: 125 – 155 = -30 Quadrierte Differenz: 900 Geteilt durch „Erwartet”: 900 / 155 = 5,81	Differenz: 175 – 145 = –30 Quadrierte Differenz: 900 Geteilt durch „Erwartet”: 900 / 145 = 6,21
Familienfilm	Beobachtet: 90 Erwartet: 62	Beobachtet: 30 Erwartet: 58
Familienfilm	Differenz: 90 – 62 = 28 Quadrierte Differenz: 784 Geteilt durch „Erwartet”: 784 / 62 = 12,65	Differenz: 30 – 58 = –28 Quadrierte Differenz: 784 Geteilt durch „Erwartet”: 784 / 58 = 13,52
Horror	Beobachtet: 45 Erwartet: 28,42	Beobachtet: 10 Erwartet: 26,58
Horror	Differenz: 45 – 28,42 = 16,58 Quadrierte Differenz: 275,01 Geteilt durch „Erwartet”: 275,01 / 28,42 = 9,68	Differenz: 10 – 26,58 = –16,58 Quadrierte Differenz: 275,01 Geteilt durch „Erwartet“: 275,01 / 26,58 = 10,35

Um schließlich unsere Prüfgröße zu erhalten, addieren wir die Zahlen in der letzten Zeile für jede Zelle:

3,29 $ + 3,52 $ + 5,81 $ + 6,21 $ + 12,65 $ + 13,52 $ + 9,68 $ + 10,35 $ = 65,03 $

Um unsere Entscheidung zu treffen, vergleichen wir die Prüfgröße mit einem Wert aus der Chi-Quadrat-Verteilung. Diese Maßnahme umfasst fünf Schritte:

Wir entscheiden das einzugehende Risiko für die Schlussfolgerung, dass die beiden Variablen nicht unabhängig sind, obwohl sie es eigentlich sind. Für die Kinodaten haben wir vor unserer Datenerfassung beschlossen, ein Risiko von 5 % für die Behauptung einzugehen, dass die beiden Variablen – Filmgenre und Snack-Kauf – nicht unabhängig sind, obwohl sie eigentlich unabhängig sind. In Statistik-Fachsprache heißt das, wir legen das Signifikanzniveau, bezeichnet durch α, auf 0,05 fest.
Wir berechnen eine Prüfgröße. Wie oben zu sehen, beträgt unsere Prüfgröße 65,03.
Wir suchen den kritischen Wert in der Chi-Quadrat-Verteilung basierend auf unseren Freiheitsgraden und unserem Signifikanzniveau. Diesen Wert erwarten wir für den Fall, dass die beiden Variablen unabhängig sind.
Die Freiheitsgrade hängen davon ab, wie viele Zeilen und Spalten wir haben. Die Freiheitsgrade (df) werden wie folgt berechnet:
$ \text{df} = (r-1)\times(c-1) $

In der Formel ist r die Anzahl der Zeilen und c die Anzahl der Spalten in unserer Kontingenztabelle. Für unser Beispiel mit den Filmgenres als Zeilen und Snack-Käufen als Spalten ergibt sich:
$ \text{df} = (4-1)\times(2-1) = 3\times1 = 3 $

Die Chi-Quadrat-Wert für α = 0,05 und drei Freiheitsgrade lautet 7,815.
Wir vergleichen den Wert unserer Prüfgröße (65,03) mit dem Chi-Quadrat-Wert. Da 65,03 > 7,815 verwerfen wir die Annahme, dass Filmgenre und Snack-Kauf unabhängig sind.

Wir schlussfolgern, dass es einen Zusammenhang zwischen Filmgenre und Snack-Käufen geben muss. Der Betreiber des Kinos kann nicht unabhängig von den gezeigten Filmgenres abschätzen, wie viele Snacks gekauft werden sollen. Stattdessen muss er beim Kauf von Snacks berücksichtigen, welche Filmgenres gezeigt werden.

Wichtig ist, dass wir nicht schlussfolgern können, dass das Filmgenre die Ursache für einen Snack-Kauf ist. Der Test auf Unabhängigkeit zeigt uns nur, ob es einen Zusammenhang gibt. Er zeigt uns aber nicht, dass eine Variable die andere bedingt.

Ergebnisse verstehen

Um den Test und die Ergebnisse nachzuvollziehen, verwenden wir Graphen.

Das folgende einfaktorielle Diagramm zeigt uns die beobachtete Häufigkeit in Blau und die erwartete Häufigkeit in Orange. Die Häufigkeiten werden über den Balken angezeigt. Das gelbe Rechteck zeigt die Summen für Filmtyp und Snack-Kauf an. Diese Summen brauchen wir, um die erwarteten Häufigkeiten zu ermitteln.

Abbildung 1: Balkendiagramm zeigt die erwarteten und beobachteten Häufigkeiten für die verschiedenen Filmgenres

Vergleichen Sie die erwarteten und beobachteten Häufigkeiten für die Horrorfilme. Sie sehen, dass mehr Menschen als erwartet Snacks kauften und dass weniger Menschen als erwartet keine Snacks kauften.

Wenn Sie alle vier Filmtypen und die Frage betrachten, ob die Menschen Snacks gekauft haben, wird für die meisten Kombinationen eine ziemlich große Differenz zwischen den beobachteten und erwarteten Häufigkeiten ersichtlich. Der Unabhängigkeitstest prüft, ob die beobachteten Daten „nahe genug“ an den erwarteten Häufigkeiten liegen, die bei einer Unabhängigkeit der beiden Variablen auftreten würden.Selbst ohne einen statistischen Test würden die meisten Menschen sagen, dass die beiden Variablen nicht unabhängig voneinander sind. Der statistische Test bietet eine allgemeine Methode zur Entscheidungsfindung, sodass alle dieselbe Entscheidung für die Daten treffen.

Die folgende Tabelle zeigt einen anderen möglichen Datensatz. Dieser Datensatz weist für Spalten und Zeilen dieselben Gesamtwerte bei Filmtyp und Snack-Kauf auf, doch die Ja/Nein-Verteilungen in den Snack-Kaufdaten sind unterschiedlich.

Abbildung 2: Balkendiagramm zeigt die erwarteten und beobachteten Häufigkeiten mit verschiedenen Stichprobendaten

Die violetten Balken zeigen die beobachteten Häufigkeiten in diesen Daten. Die orangefarbenen Balken zeigen die erwarteten Häufigkeiten, die mit unserem ursprünglichen Datensatz übereinstimmen. Die erwarteten Häufigkeiten sind gleich, weil die Zeilen- und Spaltensummen gleich sind. Bei Betrachtung des oberen Graphen liegt die Annahme nahe, Filmgenre und Snack-Kauf seien unabhängig voneinander. Wenn Sie den Chi-Quadrat-Test auf Unabhängigkeit mit diesen neuen Daten vornehmen, beträgt die Prüfgröße 0,903. Der Chi-Quadrat-Wert beträgt nach wie vor 7,815, weil es immer noch drei Freiheitsgrade gibt. Sie können die Annahme der Unabhängigkeit nicht verwerfen, da 0,903 < 7,815. Der Betreiber des Kinos kann unabhängig von den gezeigten Filmgenres abschätzen, wie viele Snacks gekauft werden sollen.

Einzelheiten zur Statistik

Sehen wir uns die Film-Snack-Daten und den Chi-Quadrat-Test auf Unabhängigkeit unter statistischen Gesichtspunkten an.

Unsere Null-Hypothese lautet, dass das Filmgenre und Snack-Käufe voneinander unabhängig sind. Die Null-Hypothese wird wie folgt formuliert:

$ H_0: \text{Filmgenre und Snack-Käufe sind unabhängig voneinander} $

Die Alternativhypothese steht für die gegenteilige Aussage.

$ H_0: \text{Filmgenre und Snack-Käufe sind nicht unabhängig} $

Bevor wir die Prüfgröße berechnen, ermitteln wir die erwarteten Häufigkeiten. Die Formulierung sieht dann wie folgt aus:

$ Σ_{ij} = \frac{R_i\times{C_j}}{N} $

Die Formel gilt für eine Kontingenztabelle im Format i x j. Diese Tabelle enthält i Zeilen und j Spalten. Zum Beispiel ist E₁₁die erwartete Häufigkeit für die Zelle in der ersten Zeile und ersten Spalte. Die Formel zeigt R_i als Zeilensumme für die i. Zeile und C_j als Spaltensumme für die j. Spalte. Die Gesamtgröße der Stichprobe ist N.

Wir berechnen die Prüfgröße mit der folgenden Formel:

$ Σ^n_{i,j=1} = \frac{(O_{ij}-E_{ij})^2}{E_{ij}} $

In der obigen Formel haben wir n Kombinationen aus Zeilen und Spalten. Das Σ-Symbol bedeutet, dass die Berechnungen jeder Kombination addiert werden. (Wir haben dieselben Schritte im Kino-Snack-Beispiel durchführt, ab Tabelle 4.) Die Formel zeigt O_ijals beobachtete Häufigkeit für die ij. Kombination und E_i_jals erwartete Häufigkeit für die Kombination. Im Beispiel mit den Kino-Snacks hatten wir vier Zeilen und zwei Spalten, also acht Kombinationen.

Anschließend vergleichen wir die Prüfgröße mit dem kritischen Chi-Quadrat-Wert, der unserem festgelegten Alpha-Wert und den Freiheitsgraden unserer Daten entspricht. Für das Beispiel mit den Kino-Snackdaten hatten wir für α = 0,05 festgelegt und es gab drei Freiheitsgrade. Für die Kino-Snackdaten wird der Chi-Quadrat-Wert folgendermaßen ausgeschrieben:

$ χ_{0.05,3}^2 $

Es gibt zwei mögliche Ergebnisse für unseren Vergleich:

Die Prüfgröße ist kleiner als der Chi-Quadrat-Wert. Sie können die Hypothese der Unabhängigkeit nicht verwerfen. Im Beispiel mit den Kino-Snacks kann der Kinobetreiber nun auf die Annahme setzen, dass das Genre des Films, den sich jemand ansieht, nicht in Zusammenhang mit einem Snack-Kauf steht.
Die Prüfgröße ist größer als der Chi-Quadrat-Wert. Sie verwerfen die Hypothese der Unabhängigkeit. Im Beispiel mit den Kino-Snacks kann der Kinobetreiber nicht annehmen, dass es keinen Zusammenhang zwischen dem Genre des Films, den sich jemand ansieht, und einem Snack-Kauf gibt.

p-Werte verstehen

Am besten lassen sich p-Werte anhand einer Grafik der Chi-Quadrat-Verteilung nachvollziehen. Sie prüfen, ob Ihre Prüfgröße ein stärkerer Extremwert in der Verteilung als der kritische Wert ist. Die folgende Grafik zeigt eine Chi-Quadrat-Verteilung mit drei Freiheitsgraden. Darin wird ersichtlich, dass der Wert 7,815 insgesamt 95 % der Daten „abschneidet“. Nur 5 % der Daten aus einer Chi-Quadrat-Verteilung mit drei Freiheitsgraden liegen über 7,815.

Abbildung 3: Chi-Quadrat-Verteilung für drei Freiheitsgrade

Das nächste Verteilungsdiagramm zeigt unsere Ergebnisse. Sie sehen, wie weit unsere Prüfgröße im Verteilungsende liegt. Bei dieser Skala sieht es sogar so aus, als liege die Verteilungskurve an dem Punkt, an dem sie unsere Prüfgröße schneidet, bei Null. Obwohl das nicht der Fall ist, liegt sie tatsächlich sehr nahe an Null. Wir schlussfolgern, dass diese Situation mit sehr geringer Wahrscheinlichkeit zufällig eingetreten ist. Die Ergebnisse, die wir von unseren Kinobesuchern erfasst haben, wären extrem unwahrscheinlich, wenn es wirklich keinen Zusammenhang zwischen dem Filmgenre und den Snack-Käufen gäbe.

Abbildung 4: Graph der Chi-Quadrat-Verteilung für drei Freiheitsgrade mit eingezeichneter Prüfgröße

Statistiksoftware-Lösungen zeigen den p-Wert für einen Test. Das ist die Wahrscheinlichkeit dafür, dass eine andere Stichprobe derselben Größe zu einer extremeren Prüfgröße als derjenigen aus unserer aktuellen Stichprobe führt – vorausgesetzt, die Null-Hypothese ist wahr. Manuell ist dies schwer zu berechnen. Für die obigen Verteilungen beträgt der p-Wert für eine Prüfgröße von exakt 7,815 genau 0,05. Für die Prüfgröße von 65,03 ist der p-Wert sehr, sehr klein. In diesem Beispiel gibt ein Großteil der Statistik-Software den p-Wert als „p < 0,0001“ an. Das bedeutet: Die Wahrscheinlichkeit, einen extremeren Wert für die Prüfgröße in einer ähnlichen Stichprobe zu finden (unter der Annahme, dass die Null-Hypothese richtig ist), liegt bei weniger als 1 zu 10.000.

Portal für statistisches Wissen