ANOVA a una via

Cos'è l'ANOVA a una via?

L'analisi della varianza (ANOVA) a una via è un metodo statistico per testare le differenze tra le medie di tre o più gruppi.

Come viene usata l'ANOVA a una via?

L'analisi della varianza a una via in genere viene usata quando si ha un'unica variabile indipendente, o fattore, e si vuole verificare se eventuali variazioni o diversi livelli di tale fattore abbiano un effetto misurabile su una variabile dipendente.

Quali limitazioni è bene tenere presenti?

L'ANOVA a una via è applicabile solo in presenza di un singolo fattore e di una singola variabile dipendente. Nel confrontare le medie di tre o più gruppi, può dirci se almeno una coppia di medie presenta differenze significative, ma non è in grado di identificare di quale coppia si tratti. Inoltre, per funzionare bisogna che la variabile dipendente sia normalmente distribuita in ciascuno dei gruppi e che la variabilità all'interno del gruppo sia simile per tutti i gruppi.

L'ANOVA a una via serve a testare le differenze tra le medie di gruppo

L'analisi della varianza a una via è un metodo statistico per testare l'ipotesi nulla (H0) in base alla quale le medie di tre o più popolazioni sarebbero uguali, contro l'ipotesi alternativa (Ha) secondo cui almeno una media sarebbe diversa. Servendoci della notazione formale per le ipotesi statistiche, per k medie scriviamo:

$ H_0:\mu_1=\mu_2=\cdots=\mu_k $

$ H_a:\mathrm{non\mathrm{\ }tutte\ le\ medie\ sono\ uguali} $

dove $\mu_i$ è la media dell'i-esimo livello del fattore.

D'accordo, penserai, ma quando mai mi potrebbe capitare di dover determinare se le medie di più popolazioni sono le stesse o meno? Un caso comune è se sospetti che una determinata variabile di processo indipendente possa influire in maniera determinante sui risultati di tale processo. Per esempio, potresti avere dei dubbi su come diversi lotti produttivi, operatori o partite di materiali grezzi influiscano sui risultati (quindi sulle misurazioni di qualità) di un processo produttivo.

Per verificare i tuoi sospetti, puoi eseguire il processo utilizzando tre o più variazioni (o livelli) di questa variabile indipendente (o fattore) e ricavarne dei campioni per l'osservazione. Se dal confronto delle medie di ogni gruppo di osservazione tramite ANOVA emergono delle differenze, allora (presupponendo che tutto sia stato fatto nella maniera corretta!) hai dimostrato di essere nel giusto e che il fattore che hai analizzato influisce sui risultati ottenuti.

Esempio di ANOVA a una via

Vediamo l'analisi della varianza a una via applicata a un esempio pratico: immagina di lavorare per un'azienda produttrice di un gel adesivo che viene commerciato in barattolini. La viscosità del gel è fondamentale: se eccessiva rischia di rendere difficile l'applicazione, se insufficiente ne diminuisce l'adesività. Di recente, hai ricevuto lamentele da alcuni clienti, i quali sostengono che la viscosità del gel è più varia che in passato. Il tuo capo ti ha chiesto di indagare sulle possibili cause.

Decidi quindi che un primo passo può essere esaminare la viscosità media degli ultimi cinque lotti di produzione. Se dovessi riscontrare differenze tra un lotto e l'altro, vorrebbe dire che c'è davvero un problema. Inoltre, avresti delle basi per ipotizzare quali fattori causino le incongruenze tra un lotto e l'altro.

Per misurare la viscosità, ti servi di uno strumento dotato di un girante immerso nel barattolo di adesivo, che fornisce il valore della resistenza alla torsione. Il test viene effettuato su cinque barattoli presi a caso da ciascuno dei cinque lotti più recenti, per un totale di 25 barattoli. Dopo aver ottenuto la misura della resistenza alla torsione di ciascun barattolo, inserisci i dati in un diagramma.

Figura 1: Diagramma della misura della torsione per lotto

Grazie al diagramma, ti accorgi che i valori della torsione dei barattoli del lotto numero 3 tendono a essere inferiori rispetto a quelli dei campioni prelevati dagli altri lotti. Facendo una media delle diverse misurazioni, ti accorgi che la resistenza alla torsione media del lotto numero 3 è pari a 26,77: molto più bassa degli altri quattro lotti, che presentano valori medi attorno a 30.

Tabella 1: Media della resistenza alla torsione dall'analisi dei cinque lotti di adesivo

Lotto n°NMedia
1529,65
2530,43
3526,77
4530,42
5529,37

La tabella ANOVA

I risultati dell'analisi della varianza in genere vengono presentati servendosi di una tabella. Una tabella ANOVA include:

  • Origine: le origini della varianza, inclusi il fattore in esame (nel nostro caso il lotto), errori e totali.
  • DF: gradi di libertà per ogni origine della varianza.
  • Devianza (SS): somma dei quadrati per ogni origine della varianza, insieme al totale di tutte le origini.
  • Media quadratica: la somma dei quadrati divisa per i relativi gradi di libertà.
  • Statistica F: la media quadratica del fattore (lotto) divisa per la media quadratica dell'errore.
  • Prob > F: il p-value.

Tabella 2: tabella ANOVA con i risultati ottenuti dalla misurazione della resistenza alla torsione

OrigineDFSomma dei quadratiMedia quadraticaRapporto FProb > F
Lotto445,2511,316,900,0012
Errore2032,801,64  
Totale2478,05   

La derivazione dei componenti della tabella è illustrata di seguito. Un elemento chiave della tabella su cui vogliamo concentrarci è il p-value. Il p-value viene usato per verificare la validità dell'ipotesi nulla secondo cui tutte le medie si equivarrebbero. Nel nostro esempio, il p-value (Prob > F) è pari a 0,0012 e, per quanto piccolo, implica che le medie non sono tutte uguali. Dai nostri campioni emerge quindi che c'è differenza tra la resistenza alla torsione media di uno o più dei lotti in esame.

Cos'è il p-value?

Il p-value è una misura della probabilità usata nel test di ipotesi. L'obiettivo dei test di ipotesi è verificare se ci siano prove sufficienti a sostenere una certa ipotesi relativa ai dati in esame. Come ricorderai, nell'ANOVA vengono formulate due ipotesi: l'ipotesi nulla secondo cui tutte le medie sarebbero uguali e l'ipotesi alternativa, secondo cui non lo sono.

Dal momento che stiamo esaminando solo campioni casuali di dati presi a caso da intere popolazioni, c'è il rischio che le medie dei nostri campioni non siano effettivamente rappresentative delle medie delle popolazioni intere. Il p-value ci dà modo di quantificare questo rischio, poiché rappresenta la probabilità che la variabilità nelle medie dei dati campione sia il risultato di pura casualità: nello specifico, indica la probabilità di osservare varianze nelle medie dei campioni ampie quanto quelle misurate qualora l'ipotesi nulla fosse vera (quindi se le medie dell'intera popolazione fossero effettivamente uguali).

Un p-value molto piccolo porta a rifiutare l'ipotesi nulla. La soglia tipica del rifiuto dell'ipotesi nulla è 0,05. In sostanza, se il p-value è inferiore a 0,05, l'ipotesi nulla andrebbe rifiutata in favore dell'ipotesi alternativa, secondo cui almeno una media sarebbe diversa dal resto.

In base ai risultati ottenuti, decidi di sottoporre il lotto n° 3 a ulteriori test. Nel report, potresti scrivere: in seguito all'analisi ANOVA della resistenza alla torsione di cinque barattoli di prodotto per ognuno dei cinque lotti più recenti, supportata dall'osservazione, è stata rilevata una differenza di resistenza alla torsione media tra i diversi lotti (p = 0,0012). Un diagramma dei dati così ottenuti ha mostrato che il lotto n° 3 aveva una resistenza alla torsione media inferiore (26,77) rispetto agli altri quattro lotti, pertanto è stato trattenuto per essere sottoposto a ulteriori valutazioni.

Non dimenticare che il semplice test ANOVA non è in grado di dirti quali medie sono diverse dal resto e (a differenza di quanto avviene nell'esempio) un grafico dei dati non lo mostra sempre in maniera così ovvia. Un modo per rispondere alle domande relative a particolari differenze è usare un test a confronto multiplo. Per esempio, per confrontare un gruppo di medie con la media complessiva si può usare l'analisi delle medie (ANOM), mentre per confrontare singole coppie di medie si può usare il test a confronto multiplo di Tukey-Kramer.

Calcolo dell'ANOVA a una via

Ora, vediamo l'esempio della resistenza alla torsione più nel dettaglio: come ricorderai, avevamo cinque lotti di materiale, da cui avevamo prelevato cinque barattoli scelti a caso per ciascuno. In questo caso, quindi, abbiamo un piano fattoriale a un fattore. Il fattore, cioè il lotto, ha cinque livelli, che vengono replicati (testati) cinque volte. I risultati dei test sono elencati di seguito.

Tabella 3: Misure della resistenza alla torsione per lotto

 Lotto 1Lotto 2Lotto 3Lotto 4Lotto 5
Barattolo 129,3930,6327,1631,0329,67
Barattolo 231,5132,1026,6330,9829,32
Barattolo 330,8830,1125,3128,9526,87
Barattolo 427,6329,6327,6631,4531,59
Barattolo 528,8529,6827,1029,7029,41
Media29,6530,4326,7730,4229,37

Per meglio analizzare i calcoli risultanti nella tabella ANOVA di cui sopra (Tabella 2), dobbiamo prima stabilire le seguenti definizioni:

$n_i$ = numero di osservazioni del trattamento $i$ (nel nostro esempio il lotto $i$)

$N$ = numero di osservazioni totale

$Y_{ij}$ = j-esima osservazione dal livello i-esimo

$\overline{Y}_i$ = media campione per l'i-esimo trattamento

$\overline{\overline{Y}}$ = media delle osservazioni (media generale)

Somma dei quadrati

Tenendo a mente queste definizioni, possiamo affrontare la colonna della somma dei quadrati nella tabella ANOVA. La somma dei quadrati ci dà modo di quantificare la variabilità di un data set focalizzandoci sulla differenza tra ogni punto di dati e la media di tutti i punti di dati in quel data set. La formula riportata di seguito divide la variabilità generale in due parti: la variabilità dovuta al modello, o ai livelli del fattore, e la variabilità dovuta a un errore casuale.  

$$ \sum_{i=1}^{a}\sum_{j=1}^{n_i}(Y_{ij}-\overline{\overline{Y}})^2\;=\;\sum_{i=1}^{a}n_i(\overline{Y}_i-\overline{\overline{Y}})^2+\sum_{i=1}^{a}\sum_{j=1}^{n_i}(Y_{ij}-\overline{Y}_i)^2 $$

$$ SS(Totale)\;     =     \;SS(Fattore)\;     +     \;SS(Errore) $$

Se vista così l'equazione può sembrare complicata, analizzarne i singoli elementi uno per uno può aiutare a capirla più facilmente. La Tabella 4 qui di seguito elenca i diversi componenti della formula, riportandoli ai quadrati che vanno a costituire la somma dei quadrati. La prima colonna di dati ($Y_{ij}$) contiene le misurazioni della resistenza alla torsione raccolte nella Tabella 3 di cui sopra.

Un altro modo per considerare le origini della variabilità: varianza tra gruppi o all'interno di uno stesso gruppo

Se ben ricordi, nella tabella ANOVA di cui sopra (Tabella 2), la colonna di origine elenca due origini della varianza: fattore (nel nostro esempio il lotto) ed errore. Un altro modo per considerare queste due origini è distinguere tra varianza tra gruppi (che corrisponde alla variazione dovuta al fattore o trattamento) e varianza all'interno del gruppo (che corrisponde alla variazione dovuta a caso o errore). Usando questa terminologia, quindi, la formula della somma dei quadrati serve essenzialmente a calcolare la somma della varianza dovuta alle differenze tra i gruppi (effetto del trattamento) e della varianza dovuta alle differenze all'interno di ogni gruppo (differenze inspiegabili dovute al caso).  

Tabella 4: Calcolo della somma dei quadrati

Lotto$Y_{ij} $$\overline{Y}_i $$\overline{\overline{Y}}$
$\overline{Y}_i-\overline{\overline{Y}}$$Y_{ij}-\overline{\overline{Y}}$$Y_{ij}-\overline{Y}_i $$(\overline{Y}_i-\overline{\overline{Y}})^2 $$(Y_{ij}-\overline{Y}_i)^2 $$(Y_{ij}-\overline{\overline{Y}})^2 $
129,3929,6529,330,320,06-0,260,100,070,00
131,5129,6529,330,322,181,860,103,464,75
130,8829,6529,330,321,551,230,101,512,40
127,6329,6529,330,32-1,70-2,020,104,082,89
128,8529,6529,330,32-0,48-0,800,100,640,23
230,6330,4329,331,101,300,201,210,041,69
232,1030,4329,331,102,771,671,212,797,68
230,1130,4329,331,100,78-0,321,210,100,61
229,6330,4329,331,100,30-0,801,210,640,09
229,6830,4329,331,100,35-0,751,210,560,12
327,1626,7729,33-2,56-2,170,396,550,154,71
326,6326,7729,33-2,56-2,70-0,146,550,027,29
325,3126,7729,33-2,56-4,02-1,466,552,1416,16
327,6626,7729,33-2,56-1,670,896,550,792,79
327,1026,7729,33-2,56-2,230,336,550,114,97
431,0330,4229,331,091,700,611,190,372,89
430,9830,4229,331,091,650,561,190,312,72
428,9530,4229,331,09-0,38-1,471,192,160,14
431,4530,4229,331,092,121,031,191,064,49
429,7030,4229,331,090,37-0,721,190,520,14
529,6729,3729,330,040,340,300,000,090,12
529,3229,3729,330,04-0,01-0,050,000,000,00
526,8729,3729,330,04-2,46-2,500,006,266,05
531,5929,3729,330,042,262,220,004,935,11
529,4129,3729,330,040,080,040,000,000,01
Somma dei quadrati      SS (Fattore) = 45,25SS (Errore) = 32,80SS (Totale) = 78,05

Gradi di libertà (DF)

A ogni somma dei quadrati corrisponde un valore chiamato grado di libertà (DF). Il grado di libertà indica il numero delle variabili indipendenti usate per calcolare ogni somma dei quadrati. Nei piani fattoriali a un fattore con un fattore a k livelli (nel nostro esempio i cinque lotti) e un totale di N osservazioni (cinque barattoli per lotto per un totale di 25) i gradi di libertà corrispondono a:

Tabella 5: Calcolo dei gradi di libertà

 Formula dei DFDF calcolati 
SS (Fattore)k - 15 - 1 = 4
SS (Errore)N - k25 - 5 = 20
SS (Totale)N - 125 - 1 = 24

Media quadratica e statistica F

Per ottenere la media quadratica (MS), ogni somma dei quadrati viene divisa per i gradi di libertà corrispondenti. Se l'ipotesi nulla è vera (quindi le medie sono uguali), MS (Fattore) e MS (Errore) sono entrambe stime di errore nella varianza, per cui i valori risultanti dovrebbero essere molto simili e il rapporto tra i due, detto statistica F, dovrebbe essere vicino a 1. Quando invece l'ipotesi nulla è falsa, la MS (Fattore) è maggiore della MS (Errore) e il rapporto tra le due è maggiore di 1. Nel nostro esempio di test sugli adesivi la statistica F risultava pari a 6,90, chiara dimostrazione che l'ipotesi nulla secondo cui le medie sarebbero uguali era da confutare.

Tabella 6: Calcolo di medie quadratiche e statistica F

 Somma dei quadrati (SS)Gradi di libertà (DF)Medie quadraticheRapporto F
SS (Fattore)45,25445,25/4 = 11,3111,31/1,64 = 6,90
SS (Errore)32,802032,80/20 = 1,64 

Il rapporto tra MS(Fattore) e MS(Errore), cioè la statistica F, ha una distribuzione F. La distribuzione F è la distribuzione dei valori F che ci si aspetterebbe di osservare se l'ipotesi nulla fosse vera (quindi con medie uguali). Le distribuzioni F hanno forme diverse in base a due parametri, chiamati gradi di libertà al numeratore e al denominatore. In un test ANOVA, il numeratore è la MS(Fattore), per cui i gradi di libertà sono quelli associati alla MS(Fattore). Il denominatore invece è la MS(Errore), per cui i gradi di libertà al denominatore saranno quelli associati alla MS(Errore).

Se la statistica F risultante supera il valore previsto per la distribuzione F corrispondente, assumendo che il p-value sia sufficientemente piccolo, si può rifiutare l'ipotesi nulla secondo cui tutte le medie sarebbero uguali. In questo caso, il p-value rappresenta la probabilità di osservare un valore maggiore della statistica F per la distribuzione F quando l'ipotesi nulla è vera.

Figura 2: Distribuzione F