Correlazione o causalità?
La correlazione è indice della relazione tra due variabili. Tuttavia, lo sviluppo di due variabili in parallelo non significa necessariamente che una sia la causa dell'altra. Ecco perché si dice che “la correlazione non è necessariamente indice di causalità”.
Una correlazione forte può essere indice di causalità, ma potrebbero anche esserci altre spiegazioni:
- Potrebbe essere il risultato di un puro caso, per cui le variabili sembrano correlate ma in realtà non vi è alcuna relazione sottesa.
- Potrebbe esserci una terza variabile nascosta che fa sembrare la relazione più forte (o più debole) di quanto non sia.
Nei dati osservazionali, la correlazione non è una conferma di causalità...
Correlazioni tra variabili che mostrano un modello nei dati: le variabili che stiamo esaminando tendono a muoversi insieme. Tuttavia, una correlazione da sola non è sufficiente a dirci se i dati evolvono insieme perché una variabile è causa dell'altra.
È possibile riscontrare una correlazione statistica significativa tra due variabili che in realtà non sono legate da alcun rapporto di causalità: in effetti, si tratta di una relazione piuttosto comune, Spesso, questo accade perché entrambe le variabili sono associate a una diversa variabile causale, che tende a verificarsi contemporaneamente ai dati che stiamo misurando.
Esempio: attività fisica e tumori della pelle
Facciamo un esempio che ci aiuti a capire meglio: immaginiamo di analizzare dei dati sanitari. Si osserva una correlazione positiva statisticamente significativa tra l'attività fisica e i casi di cancro della pelle, vale a dire che le persone che fanno più attività fisica tendono ad ammalarsi di cancro della pelle con maggiore frequenza. La correlazione sembra forte e convincente e si manifesta in diverse popolazioni di pazienti. Senza ulteriori analisi, si potrebbe concludere che l'attività fisica possa causare il cancro! In base a questi risultati, si potrebbe persino sviluppare un'ipotesi: forse lo stress dovuto all'esercizio fisico fa perdere al corpo una certa capacità di proteggersi da questi tipi di tumori. Tuttavia, l'esercizio fisico è generalmente considerato un fattore che riduce il rischio di cancro, quindi tale conclusione e ipotesi è discutibile.
Forse, in realtà, questa correlazione esiste nel set di dati perché le persone che vivono in luoghi con molto sole tutto l'anno hanno più opportunità di svago all'aperto rispetto a quelle che vivono in luoghi che non ne hanno. Questa situazione si manifesta nei loro dati come un aumento dell'attività fisica. Al tempo stesso, la maggiore esposizione al sole comporta anche un aumento dei casi di tumori cutanei. Entrambe le variabili, quantità di esercizio e cancro alla pelle, sono quindi influenzate da una terza variabile causale, cioè la quantità di luce solare, senza che tra le prime due vi sia un rapporto di causalità.
...ma una ricerca empirica ben progettata può evidenziare la causalità
Distinguere tra ciò che può costituire o meno una dimostrazione di causalità è fondamentale per una corretta analisi dei dati. Nel mondo reale, la determinazione dei rapporti causa-effetto non è mai perfetta. Tuttavia, esiste una serie di tecniche sperimentali, statistiche e di progettazione delle ricerche che consente di raccogliere prove della causalità di una relazione, come per esempio randomizzazione, esperimenti controllati e modelli predittivi con più variabili. Al di là delle limitazioni intrinseche dei test di correlazione (ad esempio, le correlazioni misurano le relazioni tra coppie di variabili e, pertanto, non possono tenere conto di una potenziale relazione sottostante con una terza variabile), è importante capire che le prove della causalità di un rapporto in genere non vengono dai dati osservazionali ma da un'attenta pianificazione degli esperimenti da realizzare.
Esempio: malattie cardiache, dieta e attività fisica
Immaginiamo di nuovo di essere ricercatori in ambito sanitario, ma di occuparci, questa volta, di una gran mole di dati relativi a percentuali di malati, diete seguite e altri comportamenti simili. Supponiamo di trovare che un aumento dell'esercizio fisico è associato a tassi più bassi di malattie cardiache (una correlazione negativa). Questa correlazione è frequente e sembra credibile. Pare proprio che ci sia un rapporto di causalità, no?
Nel caso di questi dati sanitari, la correlazione potrebbe suggerire una relazione causale sottesa, ma senza un'analisi più approfondita è impossibile stabilirlo per certo. Immagina che, dopo aver trovato questa correlazione, come passo successivo, conduciamo uno studio biologico che esamina come l'attività fisica influisce sul cuore e sul sistema circolatorio. Forse troviamo un meccanismo fisiologico per cui l'aumento dell'attività fisica riduce la pressione sanguigna: l'esercizio fisico aumenta la produzione di ossido nitrico, causando la dilatazione dei vasi sanguigni. Una pressione sanguigna più bassa riduce il rischio di malattie cardiovascolari, tra gli altri rischi per la salute. Potremmo quindi progettare un esperimento randomizzato e controllato per studiare gli effetti dell'attività fisica sui livelli di ossido nitrico e determinare che esiste una relazione causale tra i due.
In questo esempio, la dimostrazione della causalità non è derivata dal test di correlazione di per sé, che si è limitato a quantificare la relazione tra le variabili a partire dai dati osservazionali (percentuale di malattie cardiache e attività fisica dichiarata). Abbiamo invece utilizzato un esperimento controllato per trovare prove che l'attività fisica può causare cambiamenti nei livelli di ossido nitrico.
Come si studia la causalità? Con il giusto tipo di analisi!
Comprendere la causalità è tutt'altro che facile. Nel mondo reale, non si ha mai accesso a tutti i dati di cui si può avere bisogno per mappare tutte le relazioni possibili tra le variabili. Tuttavia, esistono delle strategie fondamentali per isolare e analizzare i meccanismi tra diverse variabili. Per esempio, in un esperimento controllato si può cercare di mettere insieme due gruppi simili, applicando in maniera randomizzata uno specifico trattamento o tipo di intervento a uno solo dei due. Il principio della randomizzazione è fondamentale nella progettazione sperimentale, perché ci consente di fare inferenze sull'effetto diretto di una variabile su un'altra, senza preoccuparci che ci sia qualche variabile causale non misurata concomitante con le variabili che stiamo studiando.
Non è sempre realistico o persino possibile condurre un esperimento controllato. Ma torniamo al primo esempio sopra riportato, che descriveva l'apparente relazione tra l'attività fisica e i tassi di tumore della pelle. Di che tipo di dati avremmo bisogno per dedurre la causalità? Immaginiamo di poter prendere un campione ampio e ben distribuito di persone e di chiedere loro, con una distribuzione casuale, di fare attività fisica al chiuso a diversi livelli ogni settimana per decenni. Al termine del periodo indicato, registriamo le percentuali di tumori della pelle per ogni gruppo di persone che fanno esercizio fisico. Finiremo con un set di dati progettato sperimentalmente per testare la relazione tra esercizio fisico e cancro della pelle! Dal momento che nel nostro esperimento la quantità di attività fisica è stata manipolata direttamente tramite una suddivisione randomizzata, non è possibile che sia sistematicamente correlata ad altre variabili che potrebbero variare tra un gruppo e l'altro (ponendo che tutti gli altri aspetti dello studio siano validi). Ciò significa che in questo caso, dal momento che i nostri dati sono stati ottenuti tramite un solido disegno sperimentale, una correlazione (positiva o negativa!) tra esercizio fisico e tumore della pelle sarebbe una prova significativa di causalità.