Der paarweise t-Test

Was ist ein paarweiser t-Test?

Der paarweise t-Test ist eine Methode, um zu testen, ob die mittlere Differenz zwischen Messungspaaren null beträgt.

Wann kann ich den Test nutzen?

Sie können den Test verwenden, wenn es sich bei Ihren Datenwerten um paarweise Messungen handelt. Sie verfügen beispielsweise über Vorher-Nachher-Messungen für eine Personengruppe. Außerdem sollten die Differenzen zwischen den paarweisen Messungen normalverteilt sein.

Welche anderen Bezeichnungen gibt es für den paarweisen t-Test?

Der paarweise t-Test ist auch als t-Test abhängiger Stichproben, als t-Test der paarweisen Differenz, als gepaarter t-Test und als t-Test für Messwiederholungen bekannt.

Was ist, wenn meine Daten nicht normalverteilt sind?

Wenn Ihre Stichprobengrößen sehr klein sind, können Sie möglicherweise nicht auf Normalität testen. Stattdessen müssen Sie auf Ihr Verständnis der Daten zurückgreifen. Sie können auch einen nichtparametrischen Test durchführen, der keine Normalverteilung annimmt.

Verwendung des paarweisen t-Tests

In den folgenden Abschnitten erklären wir, welche Voraussetzungen für den Test zu erfüllen sind, wie Sie Ihre Daten prüfen und wie Sie den Test durchführen. Zudem behandeln wir darin Einzelheiten zum Thema Statistik.

Was brauchen wir?

Für den paarweisen t-Test brauchen wir zwei Variablen. Eine Variable definiert die Paare zur Beobachtung. Die zweite Variable ist eine Messung. Manchmal sind bereits paarweise Differenzen für die Messungsvariable gegeben. In anderen Fällen haben wir separate Variablen für Vorher- und Nachher-Messungen bei den einzelnen Paaren und müssen die Differenzen berechnen.

Außerdem haben wir eine Vorstellung oder Hypothese darüber, dass die Differenzen zwischen den Paaren null sind. Hier sind drei Beispiele:

  • Eine Gruppe von Menschen mit trockener Haut benutzt eine medizinische Lotion auf einem Arm und eine normale Lotion auf dem anderen Arm. Nach einer Woche misst ein Arzt die Rötung auf beiden Armen. Wir möchten wissen, ob die medizinische Lotion besser wirkt als die normale Lotion. Dazu ermitteln wir, ob der mit medizinischer Lotion behandelte Arm eine geringere Rötung aufweist als der andere Arm. Da für jede Person Messungspaare vorliegen, können wir die Differenzen bestimmen. Anschließend testen wir, ob die mittlere Differenz null ist.
  • Wir messen das Gewicht von Menschen in einem Programm zur Rauchentwöhnung. Für jede Person liegt das Gewicht zum Beginn und zum Ende des Programms vor. Wir möchten wissen, ob die mittlere Gewichtsveränderungen der Programmteilnehmer null ist.
  • Ein Lehrer nimmt bei Schülern eine Prüfung ab. Am nächsten Tag gibt er den Schülern eine andere Prüfung zu exakt demselben Stoff. Der Lehrer möchte wissen, ob beide Prüfungen gleich schwer waren. Wir berechnen die Differenz der Prüfungspunktzahlen für jeden Schüler. Wir testen, ob die mittlere Differenz null ist.

Annahmen für einen paarweisen t-Test

Um den paarweisen t-Test zum Test auf Differenzen zwischen paarweisen Messungen anzuwenden, müssen folgende Annahmen zutreffen:

  • Die Subjekte müssen unabhängig sein. Die Messungen eines Subjekts beeinflussen keine Messungen anderer Subjekte.
  • Jede paarweise Messung muss für ein und dasselbe Subjekt erfasst werden. Zum Beispiel müssen die Vorher- und Nachher-Gewichtswerte für einen Raucher im obigen Beispiel von derselben Person stammen.
  • Die gemessenen Differenzen sind normalverteilt.

Beispiel für einen paarweisen t-Test

Eine Lehrerin möchte in ihren Kursen im kommenden Jahr zwei Prüfungen verwenden. Dieses Jahr legt sie ihren Schülern beide Prüfungen vor. Sie möchte wissen, ob die Prüfungen gleich schwer sind, und ermittelt zu diesem Zweck die Differenz zwischen den Punktzahlen. Wenn die mittlere Differenz zwischen den Punktzahlen der Schüler „nahe genug“ bei null liegt, wird sie schlussfolgern, dass die Prüfungen gleich schwer sind. Hier sind die Daten:

Tabelle 1: Prüfungspunktzahlen für die einzelnen Schüler

Studierende/r

Punktzahl Prüfung 1

Punktzahl Prüfung 2

Differenz

Robert636918
Nina65650
Tim566218
Kathrin10091-9
Armin8878-10
Jonas83874
Nicole77792
Julia9288-4
Tobias9085-5
Michael84928
Jens68691
Ingrid74817
Susanne8784-3
Andreas647511
Paul718413
Edwina8882-6

In der obigen Tabelle sehen Sie, dass einige der Punktzahldifferenzen positiv sind und andere negativ. Sie denken vielleicht, dass die beiden Prüfungen gleich schwer sind. Andere stimmen dem möglicherweise nicht zu. Der statistische Test bietet eine allgemeine Methode zur Entscheidungsfindung, sodass eine einheitliche Entscheidung auf Basis derselben Daten möglich ist.

Die Daten prüfen

Beantworten wir zunächst die folgende Frage: Ist der paarweise t-Test eine geeignete Methode, um die Differenz der Schwierigkeit zwischen den beiden Prüfungen zu bewerten?

  • Die Subjekte sind unabhängig. Jeder Schüler arbeitet alleine an den beiden Prüfungen.
  • Jede paarweise Messung wird für ein und dasselbe Subjekt erfasst. Jeder Schüler absolviert beide Prüfungen.
  • Die Differenzen sind normalverteilt. Wir nehmen erst einmal an, dass das zutrifft. Testen werden wir die Annahme später.

Wir entscheiden, dass wir eine gültige Analysemethode gewählt haben.

Bevor wir uns der Analyse widmen, sollten wir die Daten im Diagramm darstellen. Die folgende Abbildung zeigt ein Histogramm und zusammengefasste statistische Kenngrößen für die Punktzahldifferenzen.

Abbildung 1: Histogramm und zusammengefasste statistische Kenngrößen für die Differenzen der Prüfungspunktzahlen

Anhand des Histogramms erkennen wir, dass es keine außergewöhnlichen Datenpunkte oder Ausreißer gibt. Die Daten machen einen grob glockenförmigen Eindruck, also scheint unsere Annahme einer Normalverteilung der Differenzen angemessen.

Aus den statistischen Kenngrößen erkennen wir eine durchschnittliche bzw. mittlere Differenz von 1,3. Ist das „nahe genug“ bei null, damit die Lehrerin die Schlussfolgerung ziehen kann, dass zwei gleich schwierige Prüfungen vorliegen? Oder nicht?

So führen Sie den paarweisen t-Test durch

Die Grundsätze des paarweisen t-Tests werden wir im Abschnitt „Einzelheiten zur Statistik“ weiter unten genauer erklären, doch zunächst gehen wir die einzelnen Schritte durch. Zuerst berechnen wir unsere Prüfgröße. Dazu brauchen wir die durchschnittliche Differenz, die Standardabweichung der Differenz und die Stichprobengröße. Diese Werte finden wir oben in Abbildung 1. (Beachten Sie, dass die statistischen Kenngrößen unten auf zwei Dezimalstellen gerundet sind. Die Software zeigt für gewöhnlich mehr Dezimalstellen an und nutzt sie auch für Berechnungen.)

Die durchschnittliche Punktzahldifferenz beträgt:

$ \overline{x_d} = 1,31 $

Anschließend berechnen wir den Standardfehler für die Punktzahldifferenz. Die Berechnung dafür lautet:

$ \text{Standard Error} = \frac{s_d}{\sqrt{n}} = \frac{7,00}{\sqrt{16}} = \frac{7,00}{4} = 1,75 $

In der obigen Formel steht n für die Anzahl der Schüler, also die Anzahl der Differenzen. Die Standardabweichung der Differenzen ist sd.

Jetzt haben wir alle Informationen, die wir für die Bestimmung unserer Prüfgröße benötigen. Und so berechnen wir die Prüfgröße:

$ t = \dfrac{\text{Average difference}}{\text{Standard Error}} = \frac{1,31}{1,75} = 0,750 $

Um unsere Entscheidung zu treffen, vergleichen wir die Prüfgröße mit einem Wert aus der t-Verteilung. Diese Maßnahme umfasst vier Schritte:

  1. Wir legen das Risiko für den Fall fest, dass eine Differenz erklärt wird, obwohl keine vorliegt, das wir einzugehen bereit sind. Für die Prüfungspunktzahl-Daten sind wir bereit, ein Risiko von 5 % für die Aussage hinzunehmen, dass die unbekannte mittlere Prüfungspunktzahldifferenz null beträgt, obwohl das eigentlich nicht zutrifft. In Statistik-Fachsprache ausgedrückt heißt das, wir legen das Signifikanzniveau, bezeichnet durch α, auf 0,05 fest. Es hat sich bewährt, diese Entscheidung zu fällen, bevor Daten erfasst und statistische Kenngrößen berechnet werden.
  2. Wir berechnen eine Prüfgröße. Unsere Prüfgröße lautet 0,750.
  3. Wir suchen diesen Wert in der t-Verteilung. Die meisten Statistikbücher enthalten Nachschlagetabellen für die Verteilung. Außerdem können Sie online Tabellen finden. Wahrscheinlich werden Sie für Ihre Analyse jedoch Software und keine Tabellen auf Papier verwenden.

    Um diesen Wert zu ermitteln, brauchen wir das Signifikanzniveau (α = 0,05) und die Freiheitsgrade. Die Freiheitsgrade (df) basieren auf der Stichprobengröße. Für die Daten der Prüfungspunktzahl sieht das wie folgt aus:

    $ df = n – 1 = 16 – 1 = 15 $

    Der t-Wert für α = 0,05 und 15 Freiheitsgrade lautet 2,131.
  4. Wir vergleichen den Wert unserer statistischen Kenngröße (0,750) mit dem t-Wert. Da 0,750 < 2,131 können wir unsere Annahme nicht verwerfen, dass die mittlere Punktzahldifferenz null ist. Wir schlussfolgern daher, dass beide Prüfungen gleich schwierig sind.

Einzelheiten zur Statistik

Sehen wir uns die Prüfungspunktzahldaten und den paarweisen t-Test unter Einsatz statistischer Begriffe an.

Unsere Null-Hypothese lautet, dass der Populationsmittelwert der Differenzen null beträgt. Die Null-Hypothese wird wie folgt formuliert:

$ H_o:  \mathrm{\mu_d} = 0 $

Die Alternativhypothese lautet, dass der Populationsmittelwert der Differenzen ungleich null ist. Die Formulierung sieht dann wie folgt aus:

$ H_o:  \mathrm{\mu_d} \neq 0 $

Wir berechnen den Standardfehler wie folgt:

$ Standard Error = \frac{s_d}{\sqrt{n}} $

Die Formel zeigt die Standardabweichung der Stichprobe von den Differenzen als sd und die Stichprobengröße als n.

Die Prüfgröße wird folgendermaßen berechnet:

$ t = \frac{\mathrm{\mu_d}}{\frac{s}{\sqrt{n}}} $

Wir vergleichen die Prüfgröße mit einem t-Wert unseres gewählten Alpha-Werts und den Freiheitsgraden für unsere Daten. Für unser Beispiel mit den Prüfungspunktzahldaten legen wir α = 0,05 fest. Die Freiheitsgrade (df) basieren auf der Stichprobengröße und werden wie folgt berechnet:

$ df = n – 1 = 16 – 1 = 15 $

Statistiker schreiben den t-Wert mit α = 0,05 und 15 Freiheitsgraden wie folgt:

$ t_{0.05,15} $

Der t-Wert für α = 0,05 und 15 Freiheitsgrade beträgt 2,131. Es gibt zwei mögliche Ergebnisse für unseren Vergleich:

  • Die Prüfgröße ist niedriger als der t-Wert. Sie können die Hypothese, dass die mittlere Differenz null beträgt, nicht verwerfen. Die Schlussfolgerung der Lehrerin muss daher lauten, dass die beiden Prüfungen gleich schwierig sind. Im nächsten Jahr kann sie beide Prüfungen verwenden und der Hälfte der Schüler eine Prüfung und der anderen Hälfte die andere vorlegen.
  • Die Prüfgröße ist höher als der t-Wert. Sie verwerfen die Hypothese, dass die mittlere Differenz null beträgt. Die Schlussfolgerung der Lehrerin muss daher lauten, dass die beiden Prüfungen nicht gleich schwierig sind. Sie muss dieselbe Prüfung für alle Schüler verwenden.

Test auf Normalverteilung

Die Normalverteilungsannahme ist bei kleinen Stichprobengrößen wichtiger als bei großen.

Normalverteilungen sind symmetrisch, das heißt, sie sind auf beiden Seiten der Mitte „gerade“. Normalverteilungen weisen keine Extremwerte oder Ausreißer auf. Sie können diese beiden Eigenschaften einer Normalverteilung mithilfe einer Grafik überprüfen. Zuvor haben wir entschieden, dass die Prüfungspunktzahldifferenzen „nahe genug“ an der Normalverteilung sind, um eine Normalverteilung anzunehmen. Die folgende Abbildung zeigt ein Diagramm der Normal-Quantile für die Daten und unterstützt unsere Entscheidung.

Abbildung 2: Diagramm der Normal-Quantile für Prüfungspunktzahldaten

Sie können auch mithilfe von Software einen formellen Test auf Normalverteilung machen. Abbildung 3 weiter unten zeigt die Ergebnisse des Tests auf Normalverteilung mithilfe von JMP. Wir testen die Verteilung der Punktzahldifferenzen. Wir können die Hypothese einer Normalverteilung nicht verwerfen. Wir können mit dem paarweisen t-Test fortfahren.

Abbildung 3: Test auf Normalverteilung mit JMP-Software

Was ist, wenn meine Daten nicht normalverteilt sind?

Wenn Ihre Stichprobengröße sehr klein ist, können Sie nur schwer auf Normalität testen. In diesem Fall müssen Sie Ihr Verständnis der Messungen nutzen. Für die Prüfungspunktzahldaten weiß die Lehrerin beispielsweise, dass die zugrunde liegende Verteilung der Punktzahldifferenzen eine Normalverteilung ist. Selbst bei einer sehr kleinen Stichprobengröße würde die Lehrerin wahrscheinlich mit dem t-Test fortfahren und Normalität annehmen.

Was ist, wenn Sie wissen, dass die zugrunde liegenden Messungen nicht normalverteilt sind? Oder wenn Ihre Stichprobengröße groß ist und der Test auf Normalität abgelehnt wird? In diesem Fall können Sie nichtparametrische Analysen einsetzen. Diese Arten der Analyse hängen nicht von einer Annahme dahingehend ab, dass die Datenwerte aus einer bestimmten Verteilung stammen. Für den paarweisen t­-Test ist als nichtparametrische Variante die Durchführunge eines Wilcoxon-Vorzeichen-Rangtests möglich.

p-Werte verstehen

Mit einer bildlichen Darstellung können Sie prüfen, ob Ihre Prüfgröße ein extremerer Wert in der Verteilung ist. Die t-Verteilung ähnelt einer Normalverteilung. Die folgende Abbildung zeigt eine t-Verteilung mit 15 Freiheitsgraden.

Abbildung 4: t-Verteilung mit 15 Freiheitsgraden und α = 0,05

Da unser Test zweiseitig ist und wir α = 0,05 festgelegt haben, erkennen wir anhand der Abbildung, dass der Wert 2,131 jeweils 2,5 % der Daten in den beiden Verteilungsenden „abschneidet“. Nur 5 % der Daten insgesamt liegen somit in den Verteilungsenden außerhalb von 2,131.

Abbildung 5 zeigt, wo sich unser Ergebnis im Graph befindet. Sie können sehen, dass die Prüfgröße (0,75) nicht weit genug im Verteilungsende liegt, um die Hypothese einer mittleren Differenz von null zu verwerfen.

Abbildung 5: Ergebnisse des t-Tests – Prüfgröße ist kleiner als |2,131|

Zusammenführung in der Software

Zur Durchführung des paarweisen t-Tests in der Praxis werden Sie wahrscheinlich meistens Software verwenden. Die folgende Abbildung zeigt die Ergebnisse für den paarweisen t-Test für die Prüfungspunktzahldaten mithilfe von JMP.

Abbildung 6: Ergebnisse des paarweisen t-Tests für Prüfungspunktzahldaten mithilfe von JMP-Software

Die Software zeigt Ergebnisse für einen zweiseitigen Test (Wahrsch. > |t|) und für einseitige Tests an. Für unseren Zweck müssen wir den zweiseitigen Test heranziehen. Unsere Null-Hypothese lautet, dass die mittlere Differenz zwischen den paarweisen Prüfungspunktzahlen null ist. Unsere Alternativhypothese lautet, dass die mittlere Differenz ungleich null ist.

Die Software zeigt einen p-Wert von 0,4650 für den zweiseitigen Test. Das bedeutet, dass die Wahrscheinlichkeit für das Vorliegen einer Stichproben-Durchschnittsdifferenz von mindestens 1,31 bei einer mittleren Differenz der zugrunde liegenden Population von null etwa 47 zu 100 beträgt. Wir fühlen uns bestärkt in unserer Entscheidung, die Null-Hypothese nicht zu verwerfen. Die Lehrerin kann ihren Plan in die Tat umsetzen und nächstes Jahr beide Prüfungen verwenden, wobei jeweils eine Hälfte der Schüler eine der beiden Prüfungsvarianten bekommt.