Tipi di grafici
Di seguito sono elencati diversi tipi di grafici che è possibile utilizzare nell'analisi esplorativa dei dati (EDA). Facendo clic su ciascun tipo è possibile vederne un esempio, il numero di variabili impiegate e lo scopo.
Istogrammi
- Numero di variabili: 1.
- Mostra la forma o la distribuzione dei dati; è utile per l'identificazione degli outlier.
- Maggiori informazioni sugli istogrammi.
Figura 1: Istogramma
Istogrammi affiancati
- Numero di variabili: 2.
- Mostra la forma o la distribuzione di gruppi di dati; è utile per l'identificazione degli outlier.
Figura 2: Istogrammi affiancati con due variabili
Grafici a barre
- Numero di variabili: 1.
- Mostra il conteggio della frequenza dei valori di una variabile categorica; può essere verticale (come mostrato in Figura 3) oppure orizzontale.
- Ulteriori informazioni sui grafici a barre.
Figura 3: Grafico a barre che mostra un conteggio
Grafici a barre raggruppate
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra grafici a barre per i gruppi definiti da un'altra variabile. I grafici a barre raggruppate presentano un grafico diverso per ciascun livello della variabile di raggruppamento.
Figura 4: Grafici a barre raggruppate
Grafici a barre impilate
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra grafici a barre per i gruppi definiti da un'altra variabile. I grafici a barre impilate hanno una sola barra per ciascun livello della variabile di raggruppamento. I colori o i pattern dei conteggi di un'altra variabile sono impilati in ciascuna barra.
Figura 5: Grafico a barre impilate che mostra una singola barra per ciascun livello della variabile di raggruppamento
Diagrammi di Pareto
- Numero di variabili: 1.
- Mostra i conteggi di frequenza ordinati di una variabile. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali. I diagrammi di Pareto, che sono dei grafici a barre particolari, spesso includono una curva della percentuale cumulativa.
- Ulteriori informazioni sui diagrammi di Pareto.
Figura 6: Diagramma di Pareto che mostra le frequenze ordinate di una variabile
Grafici a barre riempite
- Numero di variabili: 1.
- Mostra i conteggi di frequenza ordinati di una variabile. Utilizzato in sostituzione di un diagramma di Pareto, specialmente in presenza di svariate categorie. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali.
- Ulteriori informazioni sui grafici a barre riempite.
Figura 7: Grafico a barre riempite che mostra le frequenze ordinate di una variabile su più categorie
Diagrammi a mosaico
- Numero di variabili: 2 o più.
- Mostra le possibili relazioni tra le variabili categoriche. Utile per trovare errori nei dati, come gli errori di battitura nelle categorie. Si tratta di un tipo particolare di grafico a barre impilate che mostra più di una variabile sull'asse x.
- Ulteriori informazioni sui diagrammi a mosaico.
Figura 8: Diagramma a mosaico che mostra le possibili relazioni tra variabili categoriche
Mappe ad albero
- Numero di variabili: 2 o più.
- Mostra le possibili relazioni tra le variabili. Si tratta di un particolare tipo di grafico a barre impilate che ha colori, ordini e dimensioni diverse a seconda delle variabili.
- Ulteriori informazioni sulle mappe ad albero.
Figura 9: Mappa ad albero che mostra le relazioni tra variabili
Box plot
- Numero di variabili: 1.
- Mostra la distribuzione dei dati. Le parti della scatola indicano il 25° percentile, il 50° percentile (percentile mediano) e il 75° percentile. A seconda dei dati, i baffi mostrano il minimo e il massimo, mentre gli outlier compaiono oltre i baffi. Viene usato per trovare gli errori nei dati e studiare una variabile.
- Ulteriori informazioni sui box plot.
Figura 10: Box plot
Box plot affiancati
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra box plot per i gruppi definiti da un'altra variabile. Viene usato per trovare gli errori nei dati e studiare due o più variabili.
Figura 11: Box plot affiancati utilizzati per studiare due o più variabili
Diagrammi dei quantili normali
- Numero di variabili: 1.
- Determina se l'assunto che una variabile abbia una distribuzione normale è corretto.
Figura 12: Diagramma dei quantili normali utilizzato per determinare se una variabile ha una distribuzione normale
Grafici a linee
- Numero di variabili: 2.
- Mostra i cambiamenti nel tempo. I valori sull'asse x devono essere ordinati cronologicamente. I grafici a linee, chiamati anche grafici lineari o carte sequenziali, sono utili per trovare gli outlier.
- Maggiori informazioni sui grafici a linee.
Figura 13: Grafico a linee che mostra i cambiamenti nel tempo
Grafici a linee con categorie
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi.
- Mostra grafici a linee multiple per i gruppi definiti da un'altra variabile. Usato per capire i cambiamenti nel tempo delle variabili multiple e per identificare gli outlier.
Figura 14: Grafico a linee con categorie utilizzato per comprendere il cambiamento di più variabili nel tempo
Grafici a dispersione
- Numero di variabili: 2 o più, a seconda del numero di variabili utilizzate per definire i gruppi per colori o indicatori.
- Mostra un possibile rapporto tra due variabili, identificando gli outlier. Aggiungere colori e/o marcatori per altre variabili può aiutare con l'EDA. Inserire linee di riferimento o specifiche dei limiti contribuisce a identificare gli outlier.
- Maggiori informazioni sui grafici a dispersione.
Figura 15: Grafico a dispersione che mostra la possibile relazione tra due variabili
Matrice grafico a dispersione
- Numero di variabili: molte.
- Mostra le possibili relazioni tra variabili multiple, tenendo in considerazione tutte le combinazioni a due vie. Si possono aggiungere ulteriori grafici: istogrammi per ogni variabile per l'identificazione degli outlier, ellissi di densità per ciascun grafico a dispersione per l'identificazione degli outlier multidimensionali e heatmap delle correlazioni per chiarire le possibili relazioni.
Figura 16: Matrice di un grafico a dispersione che mostra le possibili relazioni tra più variabili
Grafici a torta
- Numero di variabili: 1 o più.
- Mostra i rapporti di una parte con il tutto per una data variabile. Aggiungere categorie per più grafici a torta è più utile che usare un grafico a torta singolo. Nel caso di un'unica variabile, un grafico a barre può essere più utile per distinguere differenze minime tra i valori.
- Ulteriori informazioni sui grafici a torta.
Figura 17: Grafico a torta che mostra le relazioni tra le parti e l'intero di una variabile
Heatmap
- Numero di variabili: 2 o più.
- Mostra le possibili relazioni tra le variabili. Si usa soprattutto per i dati che cambiano nel tempo. Sfrutta i colori per analizzare le relazioni tra le variabili.
- Ulteriori informazioni sulle heatmap.
Figura 18: Heatmap che mostra le possibili relazioni tra variabili
Diagrammi ramo e foglia
- Numero di variabili: 1.
- Mostra la forma dei dati e identifica gli outlier. Prima dell'avvento dei computer era molto più diffuso, mentre ora al suo posto si usano più spesso gli istogrammi.
Figura 19: Diagramma ramo e foglia che mostra la forma dei dati e identifica gli outlier