Test t appaiato

Che cos'è il test t appaiato?

Il test t appaiato è un metodo utilizzato per studiare se la differenza media tra coppie di misurazioni è o meno uguale a zero.

Quando ha senso usare questo test?

Il test può essere utilizzato per analizzare misurazioni appaiate, per esempio dati riguardanti il "prima e dopo" in un gruppo di individui. Inoltre, è importante che le differenze tra le misure appaiate abbiano una distribuzione normale.

In quali altri modi viene chiamato il test t appaiato?

Il test t appaiato è chiamato anche test t per campioni dipendenti, test t delle differenze appaiate, test t delle coppie corrispondenti e test t a campioni ripetuti.

E se i dati non fossero distribuiti normalmente?

In caso di dimensioni campionarie molto piccole, potrebbe non essere possibile effettuare la verifica di normalità. In quel caso non si può fare altro che affidarsi alla propria comprensione dei dati. In alternativa, si può effettuare un test non parametrico senza assunzione di normalità.

Utilizzare il test t appaiato

Le sezioni seguenti illustrano ciò che serve per il test e spiegano come verificare i dati, eseguire il test e capirne i dettagli statistici.

Che cosa serve?

Per il test t appaiato sono necessarie due variabili: la prima definisce le coppie di osservazione, mentre la seconda è una misura. A volte, possono esserci già le differenze appaiate per la variabile di misura. Altre volte, ci sono delle variabili separate per le misure “prima” e “dopo” di ogni coppia ed è necessario calcolare le differenze.

La nostra idea, o ipotesi, è che le differenze tra le coppie siano pari a zero. Ecco tre esempi:

  • Un gruppo di persone con la pelle secca applica una crema medicale su un braccio e una crema non medicale sull'altro. Trascorsa una settimana, un medico misura il rossore su ciascun braccio. Vogliamo sapere se la crema medicale è meglio di quella non medicale. Per trovare una risposta, valutiamo se il braccio su cui è stata applicata la crema medicale è meno arrossato dell'altro e, avendo a disposizione le coppie delle misure di ogni persona, troviamo le differenze. Infine, determiniamo se la differenza media è pari a zero oppure no.
  • Pesiamo le persone che partecipano a un programma per smettere di fumare, calcolando, per ognuna, il peso all'inizio e alla fine del percorso. Vogliamo sapere se la variazione del peso medio dei partecipanti è pari a zero oppure no.
  • Una docente somministra ai suoi studenti un esame e il giorno successivo gliene somministra uno diverso sullo stesso materiale. La docente vuole sapere se i due esami presentano lo stesso grado di difficoltà. Calcoliamo la differenza dei punteggi degli esami per ogni studente e determiniamo se la differenza media è pari a zero oppure no. 

Assunti del test t appaiato

Al fine di impiegare il test t appaiato per studiare le differenze tra misure appaiate, devono sussistere i seguenti assunti:

  • I soggetti devono essere indipendenti. Le misurazioni di un soggetto non devono influire sulle misurazioni di altri soggetti.
  • Le misurazioni appaiate devono essere ottenute dallo stesso soggetto. Per esempio, il peso di un fumatore all'inizio e alla fine del programma dell'esempio precedente deve essere rilevato sulla stessa persona.
  • Le differenze misurate devono avere una distribuzione normale.

Esempio di test t appaiato

Una docente vuole usare due esami nelle sue classi del prossimo anno. Quest'anno li ha somministrati entrambi agli studenti e vuole sapere se presentano lo stesso livello di difficoltà. Per ottenere una risposta, si avvale delle differenze tra i punteggi. Se la differenza media tra i punteggi degli studenti è “abbastanza vicina” allo zero, significa che gli esami hanno lo stesso grado di difficoltà. Ecco i dati:

Tabella 1: Punteggi degli esami per ogni studente

Studente

Punteggio esame 1

Punteggio esame 2

Differenza

Bob63696
Nina65650
Tim56626
Kate10091-9
Alonzo8878-10
Jose83874
Nikhil77792
Julia9288-4
Tohru9085-5
Michael84928
Jean68691
Indra74817
Susan8784-3
Allen647511
Paul718413
Edwina8882-6

Osservando la tabella qui sopra, si vede che alcune delle differenze tra punteggi sono positive, mentre altre sono negative. Dai dati potrebbe sembrare che il livello di difficoltà dei due esami sia lo stesso, ma non è detto. Il test statistico offre un modo comune per giungere a una decisione univoca su un determinato set di dati. 

Verificare i dati

Per prima cosa, rispondiamo a questa domanda: il test t appaiato è un buon modo per valutare la differenza di difficoltà tra due esami?

  • I soggetti sono indipendenti. Ogni studente svolge i due esami in autonomia.
  • Le misurazioni appaiate vengono ottenute dallo stesso soggetto. Ogni studente, infatti, effettua entrambi i test.
  • La distribuzione delle differenze è normale. Per ora presupponiamo che questo sia vero: lo verificheremo più tardi.

Decidiamo che il metodo di analisi selezionato è valido.

Prima di lanciarci nell'analisi, vediamo di inserire i dati in un grafico. La figura che segue mostra un istogramma con le statistiche di riepilogo per la differenza tra punteggi.

Figura 1: Istogramma e statistiche di riepilogo sulla differenza tra i punteggi degli esami

Dall'istogramma, è evidente che non ci sono punti molto insoliti o outlier. I dati hanno una disposizione più o meno a campana, per cui l'idea di una distribuzione normale delle differenze sembra ragionevole.

Dalle statistiche emerge che la differenza media è 1,3. È “abbastanza vicina” allo zero da consentire alla docente di affermare che i due esami sono di pari difficoltà oppure no?

Come effettuare il test t appaiato

I principi base del test t per dati appaiati vengono illustrati più a fondo nella sezione Dettagli statistici che segue, ma prima vediamone tutti i passaggi dall'inizio alla fine. Per prima cosa bisogna calcolare la statistica di test. Per riuscirci abbiamo bisogno della differenza media, della deviazione standard della differenza e della dimensione campionaria. Tali dati sono mostrati in figura 1 (le statistiche vengono arrotondate per difetto fino a due cifre decimali. I software in genere mostrano più cifre decimali, usandole nei calcoli).

La differenza di punteggio media è:

$ \overline{x_d} = 1{,}31 $

Poi calcoliamo l'errore standard per la differenza tra gli score. Il calcolo è:

$ \text{Standard Error} = \frac{s_d}{\sqrt{n}} = \frac{7{,}00}{\sqrt{16}} = \frac{7{,}00}{4} = 1{,}75 $

Nella formula di cui sopra, n è il numero di studenti, equivalente al numero di differenze. La deviazione standard delle differenze è pari a sd.

Ora abbiamo tutti gli elementi necessari per la statistica di test e possiamo procedere con il calcolo:

$ t = \dfrac{\text{Differenza media}}{\text{Errore standard}} = \frac{1{,}31}{1{,}75} = 0{,}750 $

Per poter giungere a una conclusione, dovremo confrontare la statistica di test con un valore ripreso dalla distribuzione t. L'attività prevede quattro passaggi:

  1. Si decide il rischio che si è disposti a correre nel dichiarare una differenza anche dove non ce n'è una. Nel caso dei dati relativi ai punteggi degli esami, decidiamo di volerci assumere un rischio del 5 % nel dire che la differenza tra la media sconosciuta dei punteggi è zero, anche se in realtà non è così. Nel linguaggio statistico, si imposta il livello di significatività, contrassegnato da α, a 0.05. È bene prendere questo tipo di decisione prima di raccogliere i dati e di calcolare la statistica di test.
  2. A questo punto si può procedere con il calcolo. La nostra statistica di test è 0,750.
  3. Troviamo il valore della distribuzione t. Gran parte dei manuali di statistica fornisce delle tabelle di distribuzione pronte per la consultazione, ma le si può anche trovare online. In generale, comunque, se si effettua l'analisi tramite software non è necessario utilizzare tabelle stampate.

    Per trovare il valore risultante, avremo bisogno del livello di significatività (α = 0,05) e dei gradi di libertà. I gradi di libertà (df) dipendono dalla dimensione del campione. Nel caso del nostro esempio, abbiamo:

    $ df = n - 1 = 16 - 1 = 15 $

    Il valore t con α = 0,05 e 15 gradi di libertà è pari a 2,131.
  4. Il valore della nostra statistica (0.750) va poi confrontato con il valore t. Dal momento che 0.750 < 2.131, non possiamo scartare l'idea che la differenza tra le medie dei punteggi sia zero, per cui prendiamo la decisione pratica di considerare gli esami ugualmente complessi.

Dettagli statistici

Diamo un'occhiata ai dati sui punteggi degli esami e al test t appaiato in termini statistici.

La nostra ipotesi nulla è che la media delle differenze della popolazione sia zero. Tale ipotesi sarà quindi scritta come:

$ H_o:  \mathrm{\mu_d} = 0 $

L'ipotesi alternativa è che la media delle differenze della popolazione non sia zero. La formula è la seguente:

$ H_o:  \mathrm{\mu_d} \neq 0 $

Calcoliamo l'errore standard come segue:

$ Errore standard = \frac{s_d}{\sqrt{n}} $

Nella formula, la deviazione standard delle differenze del campione è indicata con sd e la dimensione campionaria con n

La statistica di test è calcolata come segue:

$ t = \frac{\mathrm{\mu_d}}{\frac{s}{\sqrt{n}}} $

A questo punto dobbiamo confrontare la statistica di test con il valore t corrispondente al valore alfa scelto e ai gradi di libertà dei nostri dati. Nel nostro esempio, impostiamo α = 0,05. I gradi di libertà (df) dipendono dalla dimensione campionaria e sono calcolati come segue:

$ df = n - 1 = 16 - 1 = 15 $

In statistica, il valore t con α = 0,05 e 15 gradi di libertà si scrive in questo modo:

$ t_{0{,}05;15} $

Il valore t con α = 0,05 e 15 gradi di libertà è pari a 2,131. Il confronto può dare due possibili risultati:

  • La statistica di test è inferiore al valore t, per cui non è possibile rifiutare l'ipotesi secondo cui la differenza media sia zero. La conclusione pratica a cui è giunta la docente è che i due esami presentano lo stesso grado di difficoltà. Di conseguenza, l'anno successivo potrà usarli entrambi e dare un esame a metà degli studenti e l'altro alla rimanente metà.
  • La statistica di test è superiore al valore t, per cui è possibile rifiutare l'ipotesi secondo cui la differenza media sia zero. La conclusione pratica a cui è giunta la docente è che i due esami non presentano lo stesso grado di difficoltà, perciò dovrà usare lo stesso esame per tutti gli studenti.

Test per la verifica della normalità

L'assunzione della normalità è molto più importante quando si ha a che fare con dimensioni campionarie piccole piuttosto che grandi.

Le distribuzioni normali sono simmetriche, quindi “pari” da entrambi i lati della linea mediana, e non presentano valori estremi o outlier. Queste due caratteristiche di distribuzione possono essere verificate tramite grafici. Prima, abbiamo deciso che la distribuzione delle differenze dei punteggi degli esami era “abbastanza vicina” alla normale da poterla inserire nell'assunzione della normalità. La figura che segue mostra un diagramma dei quantili normali per questi dati, a supporto della decisione presa.

Figura 2: Diagramma dei quantili normali dei dati degli esami

È inoltre possibile eseguire un test formale per la verifica della normalità tramite software. La Figura 3 di seguito mostra i risultati di un test per la verifica della normalità effettuato con JMP. Eseguiamo il test della distribuzione delle differenze dei punteggi, da cui si deduce che non si può rifiutare l'ipotesi di una distribuzione normale. Possiamo proseguire con il test appaiato.

Figura 3: Test per la verifica della normalità con software JMP

E se i dati non fossero distribuiti normalmente?

Se la dimensione campionaria è molto piccola, è complicato effettuare la verifica di normalità. In tal caso, non rimane che affidarsi alla propria comprensione dei dati. Per esempio, per quanto riguarda i dati sui punteggi degli esami, la docente sa che la distribuzione sottostante delle differenze di punteggio è normale. Anche in presenza di un campione molto piccolo, è probabile che la docente prosegua con il test t ipotizzando una distribuzione normale.

Cosa fare se sappiamo che le misurazioni di riferimento non hanno una distribuzione normale? E se la dimensione campionaria è grande e l'ipotesi di normalità della distribuzione viene rifiutata? In questo caso, è possibile ricorrere alle analisi non parametriche. Queste analisi non dipendono dall'assunto che i valori dei dati derivino da una distribuzione specifica. Per il test t appaiato, si può usare il test non parametrico dei ranghi con segno di Wilcoxon. 

Capire i p-value

Grazie alla rappresentazione visuale è possibile verificare se la statistica di test è un valore estremo nella distribuzione. La distribuzione t è simile a una distribuzione normale. La figura che segue mostra una distribuzione t con 15 gradi di libertà.

Figura 4: Distribuzione t con 15 gradi di libertà e α = 0,05

Dal momento che il nostro test è bilaterale e abbiamo stabilito che α = 0,05, la figura mostra che il valore di 2,131 “lascia fuori” il 2,5 % dei dati in ciascuna coda. Nel complesso, solo il 5 % dei dati si trova in posizione esterna a 2,131 nelle code.

La Figura 5 mostra dove cade il nostro risultato sul grafico. Si può vedere che la statistica di test (0,75) non è sufficientemente “in fondo alla coda” da poter rifiutare l'ipotesi di una differenza media pari a zero.

Figura 5: Risultati del test t (la statistica di test è inferiore a |2,131|)

Mettere tutto insieme tramite software

Nell'effettuare un test t appaiato nel mondo reale, in genere si finisce per utilizzare un software. La figura che segue mostra i risultati del test t appaiato sui dati relativi ai punteggi degli esami, effettuato tramite JMP.

Figura 6: Risultati del test t appaiato per i dati sui punteggi degli esami con software JMP

Il software mostra il risultato di un test bilaterale (Prob > |t|) e di diversi test unilaterali. Il test bilaterale è quello che ci interessa. La nostra ipotesi nulla è che la differenza media tra i punteggi degli esami abbinati sia pari a zero. L'ipotesi alternativa è che la differenza media sia diversa da zero.

Il software riporta un valore p di 0,4650 per il test bilaterale. Pertanto, la possibilità di vedere una differenza campionaria media di 1,31 o superiore, con una differenza media nella popolazione sottostante pari a zero, è di circa 47 su 100. Questo ci dà più sicurezza nella decisione di non rifiutare l'ipotesi nulla. In questo modo la docente ha la conferma di poter usare entrambi gli esami per l'anno successivo, dandone uno a metà degli studenti e l'altro agli altri.