Coefficiente di correlazione

Cos'è il coefficiente di correlazione?

Il coefficiente di correlazione è una misura specifica usata nell'analisi della correlazione per quantificare la forza della relazione lineare tra due variabili. Nei report, tale coefficiente è indicato con la lettera r.

Come viene utilizzato?

Nel caso di due variabili, la formula confronta la distanza di ogni punto di dati dalla media della variabile, definendo quanto la relazione tra le due variabili si posizionerebbe vicino a una linea immaginaria tracciata tra i dati. Per questo si dice che le correlazioni sono relazioni lineari.

Quali limitazioni è bene tenere presenti?

Le correlazioni prendono in esame soltanto le variabili indicate e non sono in grado di fornire alcun approfondimento su relazioni esterne ai dati bivariati. Inoltre, questo tipo di analisi non è in grado di individuare valori anomali nei dati (e può quindi esserne distorta), né di individuare correttamente le relazioni curvilinee.

Varianti del coefficiente di correlazione

In questa sezione, ci concentreremo sulla correlazione prodotto-momento di Pearson, che è una delle misure di correlazione più comuni, ma non l'unica. Tra le varianti c'è la correlazione di Spearman, simile per utilizzo ma applicabile a dati divisi per ranghi.

Cosa indicano i valori del coefficiente di correlazione?

Il coefficiente di correlazione r è un valore privo di unità di misura e compreso tra -1 e 1. La significatività statistica è indicata tramite un p-value. Pertanto, le correlazioni in genere vengono scritte ricorrendo a due numeri fondamentali: r = e p = .

Più r si avvicina a zero, più la correlazione lineare è debole.
Un valore r positivo è indice di una correlazione positiva, in cui i valori delle due variabili tendono ad aumentare in parallelo.
Un valore r negativo è indice di una correlazione negativa, in cui il valore di una variabile tende ad aumentare quando l'altra diminuisce.
I valori 1 e -1 rappresentano le correlazioni "perfette", una positiva e l'altra negativa. Due variabili perfettamente correlate mutano insieme a velocità fissa. In questo caso, si dice che hanno una relazione lineare perché, se inseriti in un grafico a dispersione, tutti i punti di dati possono essere collegati tra loro tramite una linea retta.
Il p-value serve a determinare se, in base a quanto osservato sul campione, si possa concludere in maniera significativa che il coefficiente di correlazione della popolazione è diverso da zero.

Cos'è il p-value?

Il p-value è una misura della probabilità usata nel test di ipotesi. L'obiettivo dei test di ipotesi è verificare se ci siano prove sufficienti a sostenere una certa ipotesi relativa ai dati in esame. In sostanza, vengono formulate due ipotesi: l'ipotesi nulla e l'ipotesi alternativa. Nel caso dell'analisi della correlazione, l'ipotesi nulla è che la relazione osservata tra le due variabili sia frutto del caso (quindi che il coefficiente di correlazione sia zero, indice dell'assenza di una correlazione lineare). L'ipotesi alternativa invece è che la correlazione misurata sia realmente presente tra i dati (e che quindi il coefficiente di correlazione sia diverso da zero).

Il p-value rappresenta la probabilità di osservare un valore diverso da zero all'interno dei dati campione quando l'ipotesi nulla è vera. Un p-value molto piccolo porta a rifiutare l'ipotesi nulla. La soglia tipica del rifiuto dell'ipotesi nulla è pari a 0,05. In sostanza, se il p-value è inferiore a 0,05, l'ipotesi nulla andrebbe rifiutata in favore dell'ipotesi alternativa, secondo cui il coefficiente di correlazione è diverso da zero.

Come si calcola il coefficiente di correlazione?

Il coefficiente di correlazione campione si può rappresentare con una formula:

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Visualizza la formula con le note

Vediamo come calcolare il coefficiente di correlazione tramite un esempio con un insieme ridotto di numeri semplici, in modo da seguire più facilmente le operazioni.

Immaginiamo di voler sapere se nella nostra città nei giorni più caldi vengono venduti più gelati. Le gelaterie aprono in primavera: è possibile che le persone tendano ad acquistare più gelati quando fa caldo. D'altronde, è anche possibile che la gente acquisti gelati con frequenza regolare semplicemente perché gli piacciono.

Per rispondere a questa domanda, innanzitutto dobbiamo raccogliere i dati sulle vendite medie giornaliere di gelati e sulla temperatura massima raggiunta. Vendite di gelati e temperatura sono quindi le nostre due variabili, usate per calcolare il coefficiente di correlazione. A volte dati di questo genere vengono chiamati dati bivariati, perché ciascuna osservazione (cioè il momento nel tempo in cui abbiamo misurato vendite e temperatura) ci permette di ricavare due informazioni per descriverla. In altre parole, dobbiamo capire se vendite di gelati e temperature aumentano e diminuiscono in parallelo.

Come già detto, un modo utile per farsi una prima idea è usare un grafico a dispersione:

In alternativa, si possono analizzare i dati in una tabella, procedura utile per seguire il coefficiente di correlazione di ogni punto di dati. Quando si parla di dati bivariati, si tende a chiamare una variabile X e l'altra Y (per poterci orientare su un piano visivo, come gli assi di un grafico). Chiamiamo le vendite di gelati X e la temperatura Y.

Come vedi, ogni punto di dati risulta appaiato, perché, come abbiamo detto, stiamo esaminando singoli punti nel tempo, ognuno dei quali corrisponde a un valore di vendita e uno di temperatura.

Vendite di gelati (X)	Temperatura °F (Y)
3	70
6	75
9	80

1. Calcolo delle medie dei campioni

Ora che abbiamo a disposizione dei dati, possiamo iniziare con dei calcoli preliminari, importanti per la formula di cui sopra: la media dei campioni e la differenza tra ciascun punto di dati e la relativa media (passaggi che sono anche le basi della deviazione standard).

Le medie dei campioni sono rappresentate dai simboli x̅ e y̅, chiamati anche “x barrato” e “y barrato”. Le medie di vendite dei gelati (x̅) e temperature (y̅) si ottengono come segue:

$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$

$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$

2. Calcolo della distanza tra ogni punto di dati e la relativa media

Una volta ottenute le medie di ognuna delle due variabili, il passaggio successivo è sottrarre la media delle vendite di gelati (6) da ciascuno dei punti di dati delle vendite (x_i nella formula) e la media della temperatura (75) da ciascuno dei punti di dati della temperatura (y_i nella formula). Nota: l'operazione può dare come risultato zero o numeri negativi!

Gelati (X)	Temperatura °F (Y)	$x_i-\overline{x}$	$y_i-\overline{y}$
$3$	$70$	$3 - 6 = -3$	$70 - 75 = -5$
$6$	$75$	$6 - 6 = 0$	$75 - 75 = 0$
$9$	$80$	$9 - 6 = 3$	$80 - 75 = 5$

3. Completamento della parte alta dell'equazione

Questa parte dell'equazione è chiamata somma dei prodotti. Un prodotto è il risultato di una moltiplicazione, per cui la formula è esattamente ciò che sembra: la somma di numeri che vengono moltiplicati.

$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$

Prendiamo i valori appaiati in ogni riga delle ultime due colonne della tabella di cui sopra, li moltiplichiamo (senza dimenticare che moltiplicando due numeri negativi si ottiene un positivo) e sommiamo i risultati così ottenuti.

$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$

APPROFONDIMENTO

Che rapporto c'è tra la somma dei prodotti e il grafico a dispersione?

Il calcolo della somma dei prodotti e la posizione dei punti di dati sul grafico sono intrinsecamente correlati.

La somma dei prodotti dei dati in nostro possesso è un numero positivo. Quando la somma dei prodotti (al numeratore nell'equazione del coefficiente di correlazione) è positiva, anche il coefficiente di correlazione r sarà positivo, perché il denominatore (una radice quadrata) è sempre positivo. Sappiamo che in una correlazione positiva all'aumentare di una variabile aumenta anche l'altra (come nell'esempio delle vendite di gelati e della temperatura) e che nel grafico a dispersione i punti di dati seguono una retta che sale da sinistra verso destra. Ma come si riassume tutto questo nella somma dei prodotti?

L'unico modo per ottenere un valore positivo per la somma dei prodotti è che i prodotti sommati tendano a essere positivi.
L'unico modo per ottenere un valore positivo per tutti i prodotti è che entrambi i valori siano negativi o positivi.
L'unico modo per ottenere una coppia di numeri negativi è che entrambi i valori siano inferiori alla propria media (nella parte in basso a sinistra del grafico), mentre l'unico modo per ottenere due numeri positivi è che entrambi i valori siano superiori alla propria media (in alto a destra nel grafico).

Pertanto, la somma dei prodotti ci dice se i dati risulteranno nella parte inferiore sinistra e superiore destra del grafico (correlazione positiva) o se invece compariranno in alto a sinistra e in basso a destra dello stesso (correlazione negativa).

4. Completamento della parte bassa dell'equazione

Il denominatore dell'equazione per il coefficiente di correlazione si presenta così:

$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$

Prendiamo le espressioni dell'equazione separatamente, inserendo i dati relativi all'esempio delle vendite di gelati:

$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$

$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$

Moltiplicando il risultato delle due espressioni, si ottiene:

$$ 18\times50\ =\ 900 $$

Quindi, il risultato al denominatore è:

$$ \sqrt{900}=30 $$

5. Completamento del calcolo e confronto del risultato con il grafico a dispersione

Torniamo all'equazione completa:

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Ora inseriamo i numeri ottenuti dai nostri calcoli al numeratore e al denominatore:

$$ r=\frac{30}{30}=1 $$

Tra vendite di gelati e temperature estive, quindi, c'è una correlazione perfetta! Di fatto, trovare una correlazione perfetta nella realtà è un'eventualità talmente improbabile che, se avessimo lavorato su dati reali, questo risultato sarebbe indice di qualche errore nel procedimento.

Tuttavia, si tratta del risultato di dati semplificati appositamente per il nostro esempio, che dovrebbe risultare intuitivo già guardando i punti di dati. Diamo un'altra occhiata al nostro grafico a dispersione:

Ora immagina di tracciare una linea che li congiunga. Non sarebbe una retta perfetta?

Un'immagine può valere più di 1000 coefficienti di correlazione!

Il grafico a dispersione e le altre modalità di visualizzazione dei dati sono strumenti utili nell'intera procedura statistica, non solo prima di effettuare il test di ipotesi.

Anzi, è importante ricordare che affidarsi soltanto al coefficiente di correlazione può risultare fuorviante, soprattutto nel caso di relazioni curvilinee o di valori anomali alle estremità. I grafici che seguono sono la dimostrazione che un coefficiente di correlazione pari o vicino a zero non significa necessariamente che non ci sia alcuna relazione tra le variabili: semplicemente, non si tratta di una relazione lineare.

Parimenti, guardare un grafico a dispersione può aiutare a capire come la presenza di valori anomali (detti anche outlier) possa alterare il coefficiente di correlazione. Vediamo un esempio con un valore anomalo a un'estremità. Il coefficiente di correlazione indica la presenza di una relazione positiva piuttosto forte tra X e Y. Rimuovendo l'outlier, tuttavia, il coefficiente di correlazione scende quasi a zero.

Statistics Knowledge Portal