Test della bontà di adattamento del chi-quadrato

In cosa consiste il test della bontà di adattamento del chi-quadrato?

Il test della bontà di adattamento del chi-quadrato è un'ipotesi statistica usata per determinare la possibilità che una variabile derivi da una specifica distribuzione o meno. In genere viene usato per valutare se i dati di esempio siano rappresentativi dell'intera popolazione.

Quando ha senso usare questo test?

Il test della bontà di adattamento del chi-quadrato ha senso quando si hanno determinati conteggi di valori per una variabile categorica.

In sostanza funziona come il test del chi-quadrato di Pearson?

Sì.

Usare il test della bontà di adattamento del chi-quadrato

Il test della bontà di adattamento del chi-quadrato serve a verificare che i dati di esempio provengano da una determinata distribuzione teorica. Si parte con un set di valori di dati e con un'idea di come questi valori sono distribuiti. Il test ci consente di decidere se i valori dei dati danno “sufficiente” conferma alla nostra idea o se invece è il caso di rimetterla in discussione.

Che cosa serve?

Per effettuare il test della bontà di adattamento è necessario disporre di una variabile e di un'idea o ipotesi di come tale variabile è distribuita. Ecco un paio di esempi:

Per applicare il test della bontà di adattamento avremo bisogno di:

Esempio di test della bontà di adattamento del chi-quadrato

Prendiamo l'esempio dei sacchetti di caramelle. Procuriamoci un campione casuale di dieci sacchetti. Ogni sacchetto contiene 100 caramelle e cinque gusti. La nostra ipotesi è che le proporzioni di ognuno dei gusti in ogni sacchetto siano le stesse.

Per prima cosa, rispondiamo a questa domanda: il test della bontà di adattamento del chi-quadrato è il modo più appropriato per valutare la distribuzione dei gusti nei sacchetti di caramelle?

In base alle risposte date sopra, possiamo dire che sì, il test della bontà di adattamento del chi-quadrato è un modo appropriato per valutare la distribuzione dei gusti nei sacchetti di caramelle.

La figura 1 mostra il conteggio complessivo dei gusti in tutti e 10 i sacchetti di caramelle.

Figura 1: grafico a barre del numero di gusti di caramelle in tutti e 10 i sacchetti

Senza bisogno di grandi statistiche, è subito chiaro che il numero di caramelle di ogni gusto non è lo stesso: per alcuni gusti ci sono meno di 200 caramelle, per altri di più. Ma quanto varia la proporzione tra un gusto e l'altro? Il numero di caramelle per ogni gusto è “sufficientemente vicino” al risultato atteso da concludere che nella maggior parte dei sacchetti possa esserci lo stesso numero di caramelle per ogni gusto o si tratta di valori troppo diversi per trarre queste conclusioni? In altre parole, i valori dei nostri dati danno “sufficiente” conferma all'idea che in ogni sacchetto ci sia uno stesso numero di caramelle per ogni gusto oppure no?

Per deciderlo, dobbiamo individuare la differenza tra ciò che abbiamo e il risultato atteso. Poi, per dare ai gusti con meno pezzi del previsto la stessa importanza dei gusti con più pezzi, facciamo il quadrato della differenza. A questo punto, dividiamo il quadrato per il conteggio atteso e sommiamo i due valori. In questo modo si ottiene la statistica di test.

Per comprendere meglio questi passaggi, facciamo un esempio numerico.

Per prima cosa, vediamo quale dovrebbe essere il risultato se in ogni sacchetto ci fosse lo stesso numero di caramelle per ogni gusto. Prima abbiamo calcolato 200 caramelle per 10 sacchetti.

Tabella 1: Confronto tra il numero di caramelle effettivo e quello atteso per ogni gusto

Gusto
Numero di caramelle (10 sacchetti)
Numero di caramelle atteso
Mela
180
200
Lime
250
200
Ciliegia
120
200
Ciliegia
225
200
Uva
225
200

Ora vediamo la differenza tra i risultati attesi e quanto effettivamente osservato nei dati. Tale differenza è mostrata nell'ultima colonna della Tabella 2:

Tabella 2: Differenza tra risultati osservati e attesi in base al gusto

Gusto
Numero di caramelle (10 sacchetti)
Numero di caramelle atteso
Osservato-atteso
Mela
180
200
180-200 = -20
Lime
250
200
250-200 = 50
Ciliegia
120
200
120-200 = -80
Arancione
225
200
225-200 = 25
Uva
225
200
225-200 = 25

Alcune differenze sono positive, altre negative. Sommandole, si otterrebbe zero. Al contrario, bisogna elevarle al quadrato. In questo modo i gusti con meno caramelle del previsto avranno la stessa importanza di quelli con più caramelle del previsto.

Tabella 3: Calcolo della discrepanza quadratica dei risultati osservati e attesi per ogni gusto

Gusto
Numero di caramelle (10 sacchetti)
Numero di caramelle atteso
Osservato-atteso
Discrepanza quadratica
Mela
180
200
180-200 = -20
400
Lime
250
200
250-200 = 50
2500
Ciliegia
120
200
120-200 = -80
6400
Arancione
225
200
225-200 = 25
625
Uva
225
200
225-200 = 25
625

Dopodiché, la discrepanza quadratica andrà divisa per il numero atteso:

Tabella 4: Calcolo della discrepanza quadratica divisa per il numero di caramelle per gusto atteso

Gusto
Numero di caramelle (10 sacchetti)
Numero di caramelle atteso
Osservato-atteso
Discrepanza quadratica
Discrepanza quadratica/numero atteso
Mela
180
200
180-200 = -20
400
400 / 200 = 2
Lime
250
200
250-200 = 50
2500
2500 / 200 = 12.5
Ciliegia
120
200
120-200 = -80
6400
6400 / 200 = 32
Arancione
225
200
225-200 = 25
625
625 / 200 = 3.125
Uva
225
200
225-200 = 25
625
625 / 200 = 3.125

Infine, sommiamo i numeri ottenuti nell'ultima colonna per ottenere la nostra statistica di test:

$ 2 + 12.5 + 32 + 3.125 + 3.125 = 52.75 $

Per giungere a una conclusione, possiamo confrontare la statistica di test con il valore critico della distribuzione del chi-quadrato. L'attività prevede quattro passaggi:

  1. Prima di tutto dobbiamo stabilire quale rischio siamo disposti a correre di trarre conclusioni errate in base alle nostre osservazioni campione. Per quanto riguarda i dati delle caramelle, prima di raccogliere i dati decidiamo di voler correre un rischio del 5 % di concludere che il conteggio dei gusti in ogni sacchetto nell'intera popolazione non sia uguale quando in realtà lo è. Nel linguaggio statistico, si imposta il livello di significatività α a 0.05.
  2. A questo punto si può procedere con il calcolo. La nostra statistica di test è 52.75.
  3. Il valore teorico della distribuzione del chi-quadrato si trova basandosi sul livello di significatività. Tale valore teorico è quello che ci si aspetterebbe se i sacchetti di caramelle contenessero effettivamente lo stesso numero di caramelle per ogni gusto.

    Oltre al livello di significatività, per trovare questo valore dobbiamo conoscere anche i gradi di libertà. Per il test della bontà di adattamento, questo numero deve essere inferiore di un'unità al numero di categorie. Avendo cinque gusti di caramelle, avremo 5 – 1 = 4 gradi di libertà.

    Il valore del chi-quadrato con α = 0.05 e 4 gradi di libertà è pari a 9.488.
  4. Confrontiamo il valore della nostra statistica di test (52.75) con quello del chi-quadrato. Dal momento che 52.75 > 9.488, possiamo rifiutare l'ipotesi nulla secondo cui la proporzione tra i gusti di caramelle sarebbe la stessa.

La conclusione pratica è che i sacchetti di caramelle dell'intera popolazione non contengono la stessa quantità di pezzi per i cinque gusti. Il risultato è evidente già dai dati originali. Chi preferisce il lime è fortunato, perché ci sono più caramelle a quel gusto che del resto. Chi invece ama la ciliegia rimarrà deluso, perché ci sono meno caramelle alla ciliegia del previsto.

Capire i risultati

Usiamo qualche grafico per capire il test e i risultati.

Un semplice grafico a barre dei dati mostra il conteggio osservato per i diversi gusti:

Figura 2: Grafico a barre del conteggio osservato per i diversi gusti

Un altro grafico a barre mostra il conteggio atteso su 200 caramelle per gusto. In questo modo si vede che aspetto avrebbe il grafico se in ogni sacchetto ci fosse la stessa quantità di caramelle per ogni gusto.

Figura 3: Grafico a barre del conteggio atteso per ogni gusto

La comparazione tra i due grafici presentata di seguito mostra il numero di caramelle effettivamente osservato in blu, mentre le barre arancioni indicano il numero di caramelle attese. È evidente che alcuni gusti hanno più caramelle del previsto, altri meno.

Figura 4: Grafico a barre che confronta il conteggio di caramelle osservato e atteso

Il test statistico è un modo per quantificare la differenza. I dati rilevati dal nostro campione sono “abbastanza vicini” al risultato atteso da poter concludere che la proporzione tra i gusti nei sacchetti della popolazione in esame sia uguale oppure no? Dai dati rilevati finora, la maggior parte della gente sosterrebbe che tali dati non sono “abbastanza vicini” anche senza dover effettuare un test statistico.

E se invece i dati apparissero come nell'esempio in Figura 5? Le barre viola mostrano il conteggio osservato, quelle arancioni il conteggio atteso. C'è chi direbbe che i dati sono “abbastanza vicini”, ma anche chi sosterrebbe il contrario. Il test statistico offre un modo comune per giungere a una conclusione, in modo che tutti prendano la stessa decisione su un determinato set di dati.

Figura 5: Grafico a barre che confronta i valori attesi ed effettivi usando un altro set di dati campione

Dettagli statistici

Diamo un'occhiata ai dati sulle caramelle e al test della bontà di adattamento del chi-quadrato in termini statistici. Tale test è noto anche con il nome di test del chi-quadrato di Pearson.

La nostra ipotesi nulla è che la proporzione tra i gusti in ogni sacchetto di caramelle sia la stessa. I sapori disponibili sono cinque. Tale ipotesi sarà quindi scritta come:

H0 : p1 = p2 = p3 = p4 = p5

La formula usa p in riferimento alla proporzione di ogni gusto. Se ogni sacchetto da 100 pezzi contenesse uno stesso numero di caramelle per ognuno dei cinque gusti, vorrebbe dire che ci sarebbero 20 caramelle per ogni gusto. La proporzione per ogni gusto sarebbe quindi di 20 / 100 = 0.2.

L'ipotesi alternativa è che almeno una delle proporzioni sia diversa dalle altre. La formula è la seguente:

Ha : al​ meno​ un​ pi​ non uguale​

In alcuni casi, non andiamo a verificare la presenza di proporzioni equivalenti. Consideriamo di nuovo l'esempio delle squadre di bambini nella parte alta della pagina. Prendendo quello come esempio, le ipotesi nulla e alternativa saranno:

H0 : p1 = 0.2, p2 = 0.65, p3 = 0.15

Ha : al​ meno​ un​ pi​ non​ uguale​ al​ valore​ atteso

A differenza delle ipotesi che coinvolgono un parametro su una popolazione singola, non possiamo usare una semplice formula, ma dobbiamo usare anche parole e simboli.

Abbiamo calcolato la statistica di test usando la formula che segue:

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

Nella formula riportata sopra, abbiamo n gruppi. Il simbolo $ \sum $ indica la somma dei calcoli per ogni gruppo. Per ognuno dovremo compiere gli stessi passaggi dell'esempio delle caramelle. La formula riporta Oi come valore osservato ed Ei come valore atteso di un dato gruppo.

A questo punto possiamo confrontare la statistica di test con un valore di chi-quadrato con il livello di significatività desiderato (chiamato anche livello alfa) e con i gradi di libertà dei nostri dati. Riprendendo l'esempio delle caramelle, impostiamo α = 0.05 con quattro gradi di libertà. Pertanto, in questo caso il valore del chi-quadrato va scritto come:

$ χ²_{0.05,4} $

Il confronto può dare due possibili risultati:

Usiamo un grafico della distribuzione del chi-quadrato per capire meglio i risultati del test. Stiamo verificando se la statistica di test è un valore più estremo del valore critico nella distribuzione. Il grafico che segue mostra una distribuzione del chi-quadrato con quattro gradi di libertà e fa vedere come il valore 9.488 “lasci fuori” il 95 % dei dati. Solo il 5 % dei dati è maggiore di 9.488.

Figura 6: Distribuzione del chi-quadrato con quattro gradi di libertà

Il grafico di distribuzione che segue include i nostri risultati. Possiamo vedere quanto la nostra statistica di test, rappresentata dalla linea tratteggiata al 52.75, sia distante nella coda. Con la scala utilizzata, sembra che l'intersezione tra la curva della distribuzione e la linea tratteggiata sia a zero. In realtà non è così, anche se ci va molto vicino. Si può concludere che è molto improbabile che una situazione simile si verifichi casualmente. Se l'effettiva popolazione di sacchetti di caramelle avesse sempre lo stesso numero di pezzi per gruppo, difficilmente avremmo ottenuto questi risultati da un campione casuale di 10 sacchetti.

Figura 7: Distribuzione del chi-quadrato con quattro gradi di libertà e rappresentazione della statistica di test

Gran parte dei software statistici mostrano il p-value di un test, cioè la probabilità di trovare un valore della statistica di test più estremo in un campione simile (assumendo che l'ipotesi nulla sia corretta). Il calcolo del p-value è difficile da eseguire a mano. Per quanto riguarda l'immagine qui sopra, se la statistica di test è esattamente 9.488, il p - value sarà p=0.05. Con una statistica di test di 52.75, il p - value sarà molto piccolo. Nell'esempio, la maggior parte dei software statistici indicherà il p - value come “p < 0.0001”. Ciò significa che la probabilità che un altro campione di 10 sacchetti di caramelle dia un valore più estremo per la statistica di test è inferiore a una possibilità su 10 000, posto che la nostra ipotesi nulla di equivalenza nel numero di caramelle per gusto sia vera.