Test del chi-quadrato di indipendenza

Cos'è il test del chi-quadrato di indipendenza?

Il test del chi-quadrato di indipendenza è un test di ipotesi statistica utilizzato per determinare la possibilità che due variabili categoriche o nominali siano correlate.

Quando ha senso usare questo test?

Questo test può essere utilizzato quando si hanno determinati conteggi di valori per due variabili categoriche.

Il test può essere utilizzato se si ha una tabella con conteggi di frequenza?

Sì. Se si dispone soltanto di una tabella con conteggi di frequenza, è possibile usarlo.

Usare il test del chi-quadrato di indipendenza

Il test del chi-quadrato di indipendenza verifica la possibilità che due variabili siano correlate. Ad esempio, abbiamo a disposizione i conteggi di due variabili categoriche o nominali e la nostra idea è che non siano correlate. Il test costituisce un metodo per verificare la plausibilità della nostra ipotesi.

Le sezioni seguenti illustrano ciò che serve per il test e spiegano come eseguirlo, come capirne i risultati, i dettagli statistici e i p-value.

Che cosa serve?

Per il test del chi-quadrato di indipendenza servono due variabili. La nostra idea è che le variabili non siano correlate. Ecco un paio di esempi:

  • La prima variabile è l'elenco dei tipi di film. La seconda variabile è l'acquisto o meno di snack al cinema da parte degli spettatori che apprezzano un certo genere. La nostra idea (o, in termini statistici, l'ipotesi nulla) è che non ci sia alcun rapporto tra il tipo di film e l'acquisto di snack. Il proprietario del cinema vuole stimare il numero di snack da acquistare. Se non ci fosse alcun rapporto tra tipo di film e acquisto di snack, il calcolo della stima sarebbe più semplice rispetto al caso in cui il tipo di film influenzasse la vendita di snack.
  • Una clinica veterinaria ha un elenco delle razze canine che segue come pazienti. La seconda variabile è costituita dalla tipologia di cibo con cui i proprietari nutrono gli animali: cibo secco, cibo in scatola o entrambi. La nostra idea è che non ci sia alcun rapporto tra la razza e il tipo di cibo. Se così fosse, la clinica potrebbe acquistare il cibo basandosi solo sul numero totale dei cani, senza tenere in considerazione la razza.

Per ottenere un test valido, sono necessari:

  • Valori di dati che siano un campione casuale semplice della popolazione di interesse.
  • Due variabili categoriche o nominali. Non è possibile usare il test di indipendenza con variabili continue che definiscono le combinazioni delle categorie. Tuttavia, il conteggio delle combinazioni di due variabili categoriche sarà continuo.
  • Per ogni combinazione dei livelli delle due variabili, sono necessari almeno cinque valori attesi. Se ce ne sono di meno, i risultati del test non sono affidabili.

Esempio di test del chi-quadrato di indipendenza

Vediamo più da vicino l'esempio degli snack al cinema. Poniamo di raccogliere i dati di 600 persone: di ognuna sappiamo che film ha visto e se ha comprato o meno degli snack.

Per prima cosa, rispondiamo a questa domanda: il testi del chi-quadrato di indipendenza è il modo più appropriato per valutare il rapporto tra tipo di film e acquisto di snack?

  • Abbiamo un campione casuale di 600 persone che hanno visto un film al cinema. Il requisito è soddisfatto.
  • Le nostre variabili sono il tipo di film e l'acquisto o meno di snack, entrambe variabili categoriche. Il requisito è soddisfatto.
  • L'ultimo requisito invece prevede che ogni combinazione delle due variabili dia come risultato più di cinque valori attesi. Per confermarlo, abbiamo bisogno di sapere il conteggio totale dei film in programmazione quella sera e il conteggio dell'eventuale acquisto di snack. Per il momento, supponiamo che il requisito venga soddisfatto, per poi ricontrollare più tardi. 

Sembra che il metodo scelto sia effettivamente valido (anche se dobbiamo ancora verificare che ogni combinazione dia più di cinque valori).

Questi sono i dati raccolti in una tabella di contingenza:

Tabella 1: Tabella di contingenza dei dati relativi agli snack al cinema

Tipo di filmSnackNessuno snack
Azione5075
Commedia125175
Film per famiglie9030
Horror4510

Prima di continuare, è opportuno verificare l'assunto dei cinque valori attesi per ogni categoria. Dai dati risultano più di cinque conteggi per ciascuna combinazione di snack e genere di film. Ma quali sono i conteggi attesi nel caso in cui la scelta di un film di un certo genere e l'acquisto di uno snack non siano eventi correlati?

Trovare i conteggi attesi

Per trovare i conteggi attesi di ciascuna combinazione di snack e tipo di film, ci servono i totali delle righe e delle colonne, mostrati di seguito:

Tabella 2: Tabella di contingenza dei dati relativi agli snack al cinema con totali di righe e colonne

Tipo di filmSnackNessuno snackTotale per riga
Azione5075125
Commedia125175300
Film per famiglie9030120
Horror451055
Totale per colonna310290TOTALE = 600

I conteggi attesi per ogni combinazione di snack e tipo di film si basano sui totali di righe e colonne. Moltiplichiamo il totale della riga per il totale della colonna e poi dividiamo per il totale complessivo. In questo modo otteniamo i conteggi attesi di ciascuna cella presente nella tabella. Ad esempio, il calcolo della cella Azione-Snack è:

$ \frac{125\times310}{600} = \frac{38750}{600} = 65 $

La risposta è arrotondata al numero intero più vicino. Se non ci fosse alcun rapporto tra tipo di film e acquisto di snack, 65 persone avrebbero guardato un film d'azione con degli snack.

Questi sono i conteggi effettivi e attesi di ciascuna combinazione di snack e genere di film. In ogni cella della Tabella 3 riportata di seguito, il conteggio atteso è riportato in grassetto sotto al conteggio effettivo. I conteggi attesi sono arrotondati al numero intero più vicino.

Tabella 3: Tabella di contingenza dei dati relativi agli snack al cinema con confronto tra conteggio effettivo e conteggio atteso

Tipo di filmSnackNessuno snackTotale per riga
Azione50
65
75
60
125
Commedia125
155
175
145
300
Film per famiglie90
62
30
58
120
Horror45
28
10
27
55
Totale per colonna310290TOTALE = 600

Se si usa un software, i valori così calcolati verranno etichettati come “valori attesi”, “conteggio celle atteso” o simili.

Tutti i conteggi attesi sui nostri dati sono maggiori di cinque, per cui il requisito per l'applicazione del test di indipendenza è soddisfatto.

Prima di calcolare la statistica di test, diamo un'altra occhiata alla tabella di contingenza. I conteggi attesi sono riportati nei totali di righe e colonne. Guardando le singole celle, vediamo che alcuni dei conteggi effettivi si avvicinano a quelli attesi, ma la maggior parte no. Se non ci fosse alcun rapporto tra tipo di film e acquisto di snack, i conteggi effettivi e attesi sarebbero simili, mentre se il rapporto c'è i due conteggi saranno diversi.

Uno degli errori più comuni sui conteggi attesi è di limitarsi a dividere il totale complessivo per il numero di celle. Nel caso dei dati sui film, si avrebbe 600 / 8 = 75, che però non va bene per il nostro calcolo. Conoscendo i totali delle righe e delle colonne, che sono fissi e non possono cambiare, dovremo basare i valori attesi sui totali di righe e colonne, non solo sul totale complessivo.

Eseguire il test

L'idea alla base del calcolo della statistica di test è di confrontare i valori effettivi e quelli attesi, considerati i totali di righe e colonne che abbiamo nei dati. Prima di tutto, calcoliamo la differenza tra i valori effettivi e quelli attesi per ciascuna combinazione di snack e tipo di film. Poi, eleviamo al quadrato la differenza. In questo modo le combinazioni con meno valori effettivi che attesi hanno la stessa importanza delle combinazioni con più valori effettivi che attesi. Poi, dividiamo per il valore atteso della combinazione e sommiamo questi valori per ciascuna combinazione di snack e tipo di film. Così facendo, si ottiene la statistica di test.

Per comprendere meglio questo calcolo, usiamo i dati del nostro esempio. La tabella 4 riportata di seguito mostra i calcoli per ciascuna combinazione di snack e tipo di film eseguiti con due cifre decimali.  

Tabella 4: Preparazione al calcolo della statistica di test

Tipo di filmSnackNessuno snack
AzioneEffettivi: 50
Attesi: 64,58
Effettivi: 75
Attesi: 60,42

Differenza: 50 – 64.58 = -14,58

Quadrato della differenza: 212,67

Diviso per gli attesi: 212,67/64,58 = 3,29

Differenza: 75 – 60,42 = 14,58

Quadrato della differenza: 212,67

Diviso per gli attesi: 212,67/60,42 = 3,52

CommediaEffettivi: 125
Attesi: 155
Effettivi: 175
Attesi: 145

Differenza: 125 – 155 = -30

Quadrato della differenza: 900

Diviso per gli attesi: 900/155 = 5,81

Differenza: 175 – 145 = 30

Quadrato della differenza: 900

Diviso per gli attesi: 900/145 = 6,21

Film per famiglieEffettivi: 90
Attesi: 62
Effettivi: 30
Attesi: 58

Differenza: 90 – 62 = 28

Quadrato della differenza: 784

Diviso per gli attesi: 784/62 = 12,65

Differenza: 30 – 58 = -28

Quadrato della differenza: 784

Diviso per gli attesi: 784/58 = 13,52

HorrorEffettivi: 45
Attesi: 28,42
Effettivi: 10
Attesi: 26,58

Differenza: 45 – 28.42 = 16,58

Quadrato della differenza: 275,01

Diviso per gli attesi: 275,01/28,42 = 9,68

Differenza: 10 – 26,58 = -16,58

Quadrato della differenza: 275,01

Diviso per gli attesi: 275,01/26,58 = 10,35

Infine, per ottenere la statistica di test dobbiamo sommare i numeri nella riga finale per ogni cella:

$ 3{,}29 + 3{,}52 + 5{,}81 + 6{,}21 + 12{,}65 + 13{,}52 + 9{,}68 + 10{,}35 = 65{,}03 $

Per poter giungere a una conclusione, dovremo confrontare la statistica di test con un valore ripreso dalla distribuzione del chi-quadrato. L'attività prevede cinque passaggi:

  1. Innanzitutto dobbiamo decidere quanto siamo disposti a rischiare di concludere che le due variabili non siano indipendenti quando invece lo sono. Nel caso dei dati dei film, prima ancora di iniziare a raccogliere i dati avevamo deciso di voler correre un rischio del 5 % che le due variabili (cioè tipo di film e acquisto di snack) non fossero indipendenti quando invece lo sono. Nel linguaggio statistico, si imposta il livello di significatività α a 0,05.
  2. Si calcola la statistica di test, che, come mostrato sopra, è 65,03.
  3. Dopodiché, dovremo trovare il valore critico della distribuzione del chi-quadrato in base ai gradi di libertà e al livello di significatività. Tale valore sarà quello che ci aspettiamo di ottenere se le due variabili sono indipendenti.
  4. I gradi di libertà dipendono dal numero di righe e colonne a disposizione. Tali gradi di libertà (df) vengono calcolati come segue:
    $ \text{df} = (r-1)\times(c-1) $

    Nella formula, r è il numero di righe, mentre c è il numero di colonne della nostra tabella di contingenza. Nel nostro esempio, con i tipi di film nelle righe e l'acquisto di snack nelle colonne, avremo:
    $ \text{df} = (4-1)\times(2-1) = 3\times1 = 3 $

    Il valore del chi-quadrato con α = 0,05 e tre gradi di libertà è pari a 7,815.
  5. Confrontiamo il valore della nostra statistica di test (65,03) con quello del chi-quadrato. Dal momento che 65,03 > 7,815, possiamo rifiutare l'ipotesi secondo cui tipo di film e acquisto di snack sarebbero indipendenti.

 

Pertanto, siamo portati a concludere che ci sia un qualche tipo di rapporto tra il tipo di film visto e l'acquisto di snack. Il proprietario del cinema non potrà quindi stimare il numero di snack da acquistare senza tenere conto dei tipi di film proiettati. Al contrario, dovrà prendere in considerazione questo fattore nel valutare quanti snack potrebbero venire acquistati.

È importante sottolineare che non è possibile concludere che un certo genere di film causi l'acquisto di uno snack. Il test di indipendenza ci dice solo che tra i due fattori c'è una relazione, ma non implica necessariamente che una variabile sia causa dell'altra.

Capire i risultati

Usiamo i grafici per capire il test e i risultati.

Il confronto tra i due grafici presentato di seguito mostra i conteggi effettivi in blu e quelli attesi in arancione. I conteggi si trovano nella parte superiore delle barre. Il riquadro giallo mostra i totali del tipo di film e dell'acquisto di snack, che sono necessari per trovare i conteggi attesi. 

Figura 1: Grafico a barre in cui sono riportati i conteggi attesi ed effettivi dei diversi generi di film

Dal confronto tra i conteggi attesi ed effettivi riguardanti i film horror emerge che più spettatori del previsto hanno acquistato degli snack e che gli spettatori che non l'hanno fatto sono stati meno rispetto alle previsioni.

Analizzando tutti e quattro i tipi di film e l'acquisto o meno di snack da parte degli spettatori, si nota una differenza significativa tra i conteggi effettivi e quelli attesi per la maggior parte delle combinazioni. Il test di indipendenza verifica se i dati effettivi sono "abbastanza vicini" ai conteggi attesi calcolati in caso di indipendenza delle variabili. Anche senza un test statistico, la maggior parte delle persone direbbe che le due variabili non sono indipendenti. Il test statistico costituisce un modo comune per giungere a una conclusione, in modo che tutti prendano la stessa decisione sui dati.

Il grafico sottostante mostra un altro possibile set di dati. I totali delle righe e delle colonne per tipo di film e acquisto di snack sono gli stessi, ma la partizione di sì/no dei dati relativi all'acquisto di snack è diversa. 

Figura 2: Grafico a barre in cui sono riportati i conteggi attesi ed effettivi con dati campionari diversi

Le barre viola mostrano i conteggi effettivi per questi dati. Le barre arancioni mostrano i conteggi attesi, che corrispondono a quelli del set di dati originale. La corrispondenza è dovuta al fatto che i totali delle righe e delle colonne sono uguali. Osservando il grafico qui sopra, la maggior parte delle persone penserebbe che il genere di film e lo snack acquistato siano indipendenti l'uno dall'altro. Applicando il test del chi-quadrato di indipendenza sui nuovi dati, il valore risultante è 0,903. Il valore del test del chi-quadrato rimane 7,815 poiché i gradi di libertà sono ancora tre. Non è possibile rifiutare l'ipotesi di indipendenza in quanto 0,903 < 7,815. Il proprietario del cinema potrà quindi stimare il numero di snack da acquistare senza considerare i generi dei film proiettati. 

Dettagli statistici

Diamo un'occhiata ai dati sugli snack consumati al cinema e al relativo test del chi-quadrato di indipendenza utilizzando termini statistici.

L'ipotesi nulla è che il tipo di film e l'acquisto di snack siano due fattori indipendenti. Tale ipotesi sarà quindi scritta come:

$ H_0: \text{tipo di film e acquisto di snack sono indipendenti} $

L'ipotesi alternativa è l'esatto opposto.

$ H_0: \text{tipo di film e acquisto di snack non sono indipendenti} $

Prima di calcolare la statistica di test, dobbiamo trovare i conteggi previsti. La formula è la seguente:

$ Σ_{ij} = \frac{R_i\times{C_j}}{N} $

Questa formula serve a creare una tabella di contingenza i x j, cioè una tabella con i righe e j colonne. Per esempio, E11 è il conteggio previsto per la cella nella prima riga e nella prima colonna. La formula mostra Ri come il totale della riga per la ia riga e Cj come totale della colonna per la ja colonna. La dimensione complessiva del campione è N.  

Abbiamo calcolato la statistica di test usando la formula che segue:

$ Σ^n_{i,j=1} = \frac{(O_{ij}-E_{ij})^2}{E_{ij}} $

Nella formula riportata sopra, abbiamo n combinazioni di righe e colonne. Il simbolo Σ indica la somma dei calcoli per ciascuna combinazione (abbiamo seguito gli stessi passaggi dell'esempio degli snack al cinema, a partire dalla Tabella 4). La formula mostra Oij come conteggio osservato per la ija combinazione e Ei j come relativo conteggio atteso. Nell'esempio degli snack avevamo quattro righe e due colonne, quindi otto possibili combinazioni.

A questo punto dobbiamo confrontare la statistica di test con il valore del chi-quadrato corrispondente al valore alfa scelto e ai gradi di libertà dei nostri dati. Tornando all'esempio dei dati sugli snack al cinema, avevamo impostato α = 0,05 con tre gradi di libertà. Pertanto, in questo caso il valore del chi-quadrato va scritto come:

$ χ_{0{,}05;3}^2 $

Il confronto può dare due possibili risultati:

  • La statistica di test è inferiore al valore del chi-quadrato, per cui non è possibile rifiutare l'ipotesi di indipendenza. Nell'esempio degli snack, il titolare del cinema può quindi supporre che il tipo di film scelto non abbia alcun rapporto con il desiderio o meno degli spettatori di acquistare da mangiare.
  • La statistica di test è superiore al valore del chi-quadrato, per cui l'ipotesi di indipendenza viene rifiutata. Nell'esempio degli snack, il titolare del cinema non può pensare che non ci sia alcun rapporto tra il tipo di film scelto e il desiderio o meno degli spettatori di acquistare da mangiare.

Capire i p-value

Usiamo un grafico della distribuzione del chi-quadrato per capire meglio i p-value. Stiamo verificando se la statistica di test è un valore più estremo del valore critico nella distribuzione. Il grafico che segue mostra una distribuzione del chi-quadrato con tre gradi di libertà e fa vedere come il valore 7,815 "lasci fuori" il 95 % dei dati. Solo il 5 % dei dati della distribuzione del chi-quadrato con tre gradi di libertà è maggiore di 7,815.

 

Figura 3: Grafico della distribuzione del chi-quadrato con tre gradi di libertà

Il successivo grafico di distribuzione mostra i risultati. È possibile osservare quanto distante nella coda si trova la statistica di test. Infatti, la scala utilizzata sembra mostrare che, nel punto di intersezione con la statistica di test, la curva della distribuzione è a zero. In realtà non è così, anche se ci va molto vicino. Si può concludere che è molto improbabile che una situazione simile si verifichi casualmente. I risultati ottenuti sugli avventori sarebbero davvero improbabili se davvero non esistesse alcuna relazione tra genere di film e snack acquistato.

Figura 4: Grafico della distribuzione del chi-quadrato con tre gradi di libertà e rappresentazione della statistica di test.

Il software statistico mostra il p-value di un test, ovvero la probabilità che un altro campione delle stesse dimensioni possa produrre una statistica di test più estrema rispetto a quella del campione studiato, dietro l'assunzione che l'ipotesi nulla sia vera. Il calcolo è molto difficile da eseguire manualmente. Per quanto riguarda la distribuzione mostrata qui sopra, se la statistica di test è esattamente 7,815, il p-value sarà p=0,05. Con una statistica di test di 65,03, il p-value sarà molto piccolo. Nell'esempio, la maggior parte dei software statistici indicherà il p-value come “p < 0,0001”. Ciò significa che la probabilità di trovare un valore della statistica di test più estremo utilizzando un altro campione casuale (e assumendo che l'ipotesi nulla sia corretta) è inferiore a uno su 10 000.