Korrelationskoeffizient

Style

section-padding-none

Was ist der Korrelationskoeffizient?

Der Korrelationskoeffizient ist das spezifische Maß, um die Stärke der linearen Beziehung zwischen zwei Variablen in einer Korrelationsanalyse zu quantifizieren. Der Koeffizient wird in einem Korrelationsbericht durch r symbolisiert.

Wie wird der Korrelationskoeffizient verwendet?

Für zwei Variablen wird mit der Formel die Distanz jedes Datenpunktes vom Mittelwert der Variablen verglichen , sodass wir erfahren, wie nahe die Beziehung zwischen den Variablen an eine imaginäre Gerade durch die Daten angepasst werden kann. Das meinen wir mit der Aussage, dass Korrelationen sich mit linearen Beziehungen befassen.

Welche Einschränkungen sind zu berücksichtigen?

Korrelation berücksichtigt nur die zwei vorliegenden Variablen und bietet keine Einblicke in die Beziehungen über die bivariaten Daten hinaus. Dieser Test ermöglicht keine Erkennung von Ausreißern in den Daten (die demzufolge zu einem verzerrten Test führen) und auch keine angemessene Erkennung von kurvenförmigen Beziehungen.

column-blue

column-2

In diesem Abschnitt konzentrieren wir uns auf die Produkt-Moment-Korrelation nach Pearson. Dies ist eines der Korrelationsmaße, das in der Praxis am häufigsten verwendet wird, aber es gibt auch andere. Eine eng verwandte Variante ist die Spearman-Korrelation, die ähnlich verwendet wird, jedoch für Daten geeignet ist, von denen man nur die Rangfolgen kennt.

Was bedeuten die Werte des Korrelationskoeffizienten?

Der Korrelationskoeffizient r ist ein einheitsloser Wert zwischen -1 und 1. Statistische Signifikanz wird durch einen p-Wert angegeben. Daher werden Korrelationen normalerweise mit zwei Kennzahlen angegeben: r = und p = .

Je näher r bei Null liegt, desto schwächer ist der lineare Zusammenhang.
Positive r-Werte zeigen eine positive Korrelation an, bei der die Werte beider Variable tendenziell gemeinsam ansteigen.
Negative r-Werte zeigen eine negative Korrelation an, bei der die Werte einer Variable tendenziell ansteigen, wenn die Werte der anderen Variablen fallen.
Die Werte 1 und -1 stellen beide "perfekte" Korrelationen dar, jeweils positiv und negativ. Zwei perfekt korrelierte Variablen verändern sich gemeinsam mit einer konstanten Rate. Wir sagen, sie haben eine lineare Beziehung; auf einem Streudiagramm dargestellt, können alle Datenpunkte durch eine gerade Linie verbunden werden.
Der p-Wert hilft uns zu ermitteln, ob wir auf Grundlage der Beobachtungen aus der Stichprobe aussagekräftig schlussfolgern können, dass der Korrelationskoeffizient der Population nicht gleich Null ist.

Was ist ein p-Wert?

Der p-Wert ist eine Wahrscheinlichkeit, die zum Testen von Hypothesen verwendet wird. Das Ziel von Hypothesentests ist es, festzustellen, ob genügend Anhaltspunkte vorliegen, um eine bestimmte Hypothese über Ihre Daten zu stützen. Tatsächlich formulieren wir zwei Hypothesen: die Nullhypothese und die alternative Hypothese. Im Falle einer Korrelationsanalyse lautet die Nullhypothese normalerweise, dass die beobachtete Beziehung zwischen Variablen auf reinem Zufall beruht (d. h. der Korrelationskoeffizient beträgt tatsächlich Null – es besteht keine lineare Beziehung). Die alternative Hypothese lautet, dass die gemessene Korrelation berechtigterweise in unseren Daten vorhanden ist (d. h. der Korrelationskoeffizient ist nicht gleich Null).

Der p-Wert ist die Wahrscheinlichkeit, in unseren Stichprobendaten einen Korrelationskoeffizienten zu beobachten, der nicht gleich Null ist, obwohl in Wirklichkeit die Nullhypothese wahr ist. Ein niedriger p-Wert würde dazu führen, dass Sie die Nullhypothese ablehnen. Ein typischer Schwellenwert für die Ablehnung einer Nullhypothese ist ein p-Wert von 0,05. Das heißt, wenn Sie einen p-Wert von weniger als 0,05 erhalten, würden Sie die Nullhypothese zugunsten der alternativen Hypothese ablehnen – dass der Korrelationskoeffizient nicht gleich Null ist.

Wie wird der Korrelationskoeffizient berechnet?

Der Korrelationskoeffizient der Stichprobe kann durch die folgende Formel dargestellt werden:

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Formel mit Anmerkungen anzeigen

Gehen wir die Berechnung des Korrelationskoeffizienten mithilfe eines Beispieles aus einfachen Zahlen schrittweise durch, sodass Sie die Rechenoperationen problemlos verfolgen können.

Stellen wir uns vor, dass uns interessiert, ob wir in unserer Stadt an heißeren Tagen mehr Eiscremeverkäufe erwarten können. Eisdielen öffnen ab dem Frühling; vielleicht kaufen Menschen mehr Eiscreme an Tagen, an denen es draußen heiß ist. Andererseits kaufen Menschen vielleicht gleichbleibend viel Eiscreme, weil sie sie so gern essen.

Wir beginnen diese Frage zu beantworten, indem wir Daten über durchschnittliche Eiscremeverkäufe pro Tag sowie die tägliche Höchsttemperatur erfassen. Eiscremeverkäufe und Temperatur sind also die zwei Variablen, die wir zur Berechnung des Korrelationskoeffizienten verwenden. Manchmal werden solche Daten als bivariate Daten bezeichnet, weil jede Beobachtung (oder jeder Zeitpunkt, zu dem wir Verkäufe und Temperatur gemessen haben) zwei Informationen beinhaltet, die wir zur Beschreibung nutzen können. Anders ausgedrückt stellen wir die Frage, ob Eiscremeverkäufe und Temperatur sich gemeinsam verändern.

Wie zuvor ist es nützlich, sich die Daten zunächst in einem Streudiagramm anzusehen:

Wir können die Daten auch in einer Tabelle darstellen, sodass wir die Berechnung des Koeffizienten für jeden einzelnen Datenpunkt praktisch verfolgen können. Bei der Beschreibung von bivariaten Daten ist es typisch, eine Variable als X und die andere als Y zu bezeichnen (diese helfen uns auch bei der Orientierung auf einer visuellen Ebene, beispielsweise den Achsen eines Diagramms). Bezeichnen wir Eiscremeverkäufe als X und die Temperatur als Y.

Beachten Sie, dass jeder Datenpunkt paarweise vorliegt. Denken Sie daran, dass wir einzelne Zeitpunkte betrachten und dass jeder Zeitpunkt einen Wert für Verkäufe und Temperatur beinhaltet.

Eiscremeverkäufe (X)

Temperatur °F (Y)

1. Finden Sie zu Beginn die Stichprobenmittelwerte

Nachdem wir uns nun in unseren Daten orientiert haben, können wir mit zwei wichtigen Berechnungsschritten aus der oben stehenden Formel beginnen: dem Stichprobenmittelwert und der Differenz zwischen den einzelnen Datenpunkten und diesem Mittelwert (diese Anleitungen legen auch den Grundstein zum Verständnis der Standardabweichung).

Die Stichprobenmittelwerte werden durch die Symbole x̅ und y̅ dargestellt, manchmal als „x quer“ und „y quer“ bezeichnet. Die Mittelwerte für Eiscremeverkäufe (x̅) und Temperatur (y̅) können einfach folgendermaßen berechnet werden:

$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$

$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$

2. Berechnen Sie die Distanz jedes Datenpunktes von seinem Mittelwert

Mit dem vorliegenden Mittelwert für unsere beiden Variablen ist der nächste Schritt, den Mittelwert der Eiscremeverkäufe (6) von den einzelnen Verkaufs-Datenpunkten (x_i in der Formel) sowie den Temperatur-Mittelwert (75) von den einzelnen Temperatur-Datenpunkten (y_i in der Formel) zu subtrahieren. Beachten Sie, dass diese Rechenoperation manchmal eine negative Zahl oder Null ergibt!

Eiscreme (X)

Temperatur °F (Y)

$x_i-\overline{x}$

$y_i-\overline{y}$

$3$

$70$

$3 - 6 = -3$

$70 - 75 = -5$

$6$

$75$

$6 - 6 = 0$

$75 - 75 = 0$

$9$

$80$

$9 - 6 = 3$

$80 - 75 = 5$

3. Vervollständigen Sie den oberen Teil der Koeffizientengleichung

Dieser Teil der Gleichung heißt die Summe der Produkte. Ein Produkt ist die Zahl, die man nach dem Multiplizieren erhält, also ist diese Formel genau das, was ihr Name besagt: die Summe der multiplizierten Zahlen.

$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$

Aus der oben stehenden Tabelle nehmen wir aus jeder Zeile die paarweisen Werte der letzten zwei Spalten, multiplizieren sie miteinander (denken Sie daran, dass die Multiplikation von zwei negativen Zahlen eine positive Zahl ergibt!) und bilden die Summe aus diesen Ergebnissen:

$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$

EINBLICK:

How does the Sum of Products relate to the scatterplot?

Die Berechnung der Summe der Produkte und die Position der Datenpunkte in unserem Streudiagramm sind eng miteinander verbunden.

Beachten Sie, dass die Summe der Produkte für unsere Daten positiv ist. Wenn die Summe der Produkte (der Zähler unserer Korrelationskoeffizienten-Gleichung) positiv ist, ist der Korrelationskoeffizient r positiv, da der Nenner – eine Quadratwurzel – stets positiv ist. Wir wissen, dass eine positive Korrelation bedeutet, dass Erhöhungen einer Variablen mit Erhöhungen der anderen Variablen enher gehen(wie in unserem Beispiel der Eiscremeverkäufe und der Temperatur), sodass in einem Streudiagramm die Datenpunkte von links nach rechts steigend angeordnet sind. Aber wie wird dies von der Summe der Produkte erfasst?

Einen positiven Wert für die Summe der Produkte erhalten wir nur dann, wenn die Produkte, die wir addieren, tendenziell positiv sind.
Einen positiven Wert für jedes Produkt erhalten wir nur, wenn beide Werte negativ oder beide Werte positiv sind.
Ein Paar negativer Zahlen erhalten wir nur, wenn beide Werte unter ihren Mittelwerten liegen (auf der unteren linken Seite des Streudiagramms), und ein Paar positive Zahlen erhalten wir nur, wenn beide Werte über ihren Mittelwerten liegen (auf der oberen rechten Seite des Streudiagramms).

Die Summe der Produkte teilt uns also mit, ob Daten tendenziell im unteren linken und oberen rechten Bereich des Streudiagramms erscheinen (eine positive Korrelation) oder alternativ, ob die Daten tendenziell im oberen linken und unteren rechten Bereich des Streudiagramms erscheinen (eine negative Korrelation).

4. Vervollständigen Sie den unteren Teil der Koeffizientengleichung

Der Nenner unserer Korrelationskoeffizientengleichung sieht folgendermaßen aus:

$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$

Nehmen wir uns die Ausdrücke in dieser Gleichung getrennt nacheinander vor und verwenden die Zahlen aus unserem Beispiel der Eiscremeverkäufe:

$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$

$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$

Wenn wir die Ergebnisse der beiden Ausdrücke miteinander multiplizieren, erhalten wir:

$$ 18\times50\ =\ 900 $$

Das bringt den unteren Teil der Gleichung auf:

$$ \sqrt{900}=30 $$

5. Vervollständigen Sie die Rechnung und vergleichen Sie das Ergebnis mit dem Streudiagramm

Hier ist unsere vollständige Korrelationskoeffizientengleichung noch einmal:

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Tragen wir die Zahlen aus dem Zähler und Nenner ein, die wir oben berechnet haben:

$$ r=\frac{30}{30}=1 $$

Eine perfekte Korrelation zwischen Eiscremeverkäufen und heißen Sommertagen! Natürlich ist es in der Praxis so unwahrscheinlich, eine perfekte Korrelation zu finden, dass wir, wenn wir mit echten Daten gearbeitet hätten, annehmen würden, wir hätten einen Fehler gemacht, wenn wir solch ein Ergebnis erhalten hätten.

Aber dieses Ergebnis aus den vereinfachten Daten in unserem Beispiel sollte schon vom bloßen Anblick der Datenpunkte intuitiv einen Sinn ergeben. Sehen wir uns unser Streudiagramm erneut an:

Stellen Sie sich jetzt vor, dass Sie eine Linie durch dieses Streudiagramm zeichnen. Würde sie wie eine perfekte lineare Anpassung aussehen?

Ein Bild sagt mehr als 1.000 Korrelationskoeffizienten!

Streudiagramme und andere Datenvisualisierungen sind nützliche Werkzeuge im gesamten statistischen Prozess, nicht nur bevor wir unsere Hypothesentests durchführen.

Wir sollten stets im Hinterkopf behalten, dass es irreführend sein kann, sich ausschließlich auf den Korrelationskoeffizienten zu verlassen – besonders in Situationen, in denen kurvenförmige Beziehungen oder extreme Ausreißer vorhanden sind. Die unten stehenden Streudiagramme erinnern uns daran, dass ein Korrelationskoeffizient von Null oder nahe Null nicht unbedingt bedeutet, dass keine Beziehung zwischen den Variablen besteht; er bedeutet lediglich, dass keine lineare Beziehung besteht.

Gleichermaßen kann ein Streudiagramm veranschaulichen, wie Ausreißer – ungewöhnliche Beobachtungen in unseren Daten – den Korrelationskoeffizienten verzerren können. Sehen wir uns ein Beispiel mit einem extremen Ausreißer an. Der Korrelationskoeffizient deutet darauf hin, dass eine relativ starke positive Beziehung zwischen X und Y besteht. Aber wenn der Ausreißer entfernt wird, ist der Korrelationskoeffizient nahe Null.

layout

2 column

Style

columns-75-25, section-top-padding-xsmall