Analisi delle relazioni

Intuitivamente, ha senso che le società con un maggior numero di dipendenti possano generare più ricavi rispetto alle società con un minor numero di dipendenti. Un analista desidera prevedere i ricavi complessivi derivanti dalle vendite per ciascuna società in base al numero dei dipendenti.

Questo esempio utilizza la tabella di dati Companies.jmp, che contiene dati finanziari relativi a 32 società farmaceutiche e di informatica.

A tale scopo, eseguire le operazioni indicate in:

•	Individuazione della relazione

•	Stima del modello di regressione

•	Previsione delle vendite medie

Questo grafico a dispersione mostra chiaramente la relazione fra le vendite e il numero dei dipendenti. Come previsto, quanti più dipendenti ha una società, tante più vendite è in grado di generare. Ciò conferma visivamente l'ipotesi dell'analisi ma non prevede le vendite per un dato numero di dipendenti.

Innanzi tutto, creare un grafico a dispersione per osservare la relazione fra il numero dei dipendenti e la quantità di ricavi derivanti dalle vendite. Questo grafico a dispersione è stato creato in Creazione del grafico a dispersione nel capitolo Visualizzazione dei dati. Dopo avere nascosto ed escluso un outlier (una società con un numero significativamente elevato di dipendenti e vendite rispetto alle altre), il grafico in Figura 5.12 Grafico a dispersione di Sales ($M) rispetto a # Employ mostra il risultato.

Figura 5.12 Grafico a dispersione di Sales ($M) rispetto a # Employ

Stima del modello di regressione

Per prevedere i ricavi derivanti dalle vendite dal numero dei dipendenti, stimare un modello di regressione. Fare clic sul triangolo rosso associato a Stima bivariata e selezionare Stima lineare. Una linea di regressione viene aggiunta al grafico a dispersione e vengono aggiunti report alla finestra dei report.

Figura 5.13 Linea di regressione

All'interno dei report, osservare i seguenti risultati:

•	il p-value di <.0001

•	il valore R-quadro 0.618

Da questi risultati, l'analista può concludere che:

•

Il p-value del termine del modello #Employ è piccolo. Ciò significa che al livello di significatività di 0,05 il coefficiente di #Employ non è zero. Quindi, l'inserimento del numero dei dipendenti nel modello di previsione migliora sensibilmente la capacità di prevedere le vendite medie rispetto a un modello senza il numero dei dipendenti.

•

Il valore R-quadro di 0,618 indica che questo modello spiega circa il 62% della variabilità nelle vendite. Il valore R-quadro è il coefficiente di determinazione e indica la proporzione della varianza nella variabile (di risposta) dipendente spiegata dal modello. R-quadro può avere un intervallo da 0 a 1. Un modello con un R-quadro pari a 0 non ha potenza esplicativa. Un modello con un R-quadro pari a 1 prevede la risposta perfettamente.

Previsione delle vendite medie

Utilizzare il modello di regressione per prevedere le vendite medie che una società potrebbe aspettarsi se avesse un certo numero di dipendenti. L'equazione di previsione per il modello è inclusa nel report:

Vendite medie = 1059,68 + 0,092*dipendenti

Per esempio, in una società con 70.000 dipendenti, si prevede che le vendite ammontino a $7.500:

$7.499,68 = 1059,68 + 0,092*70.000

Nell'area inferiore destra del grafico a dispersione corrente, è presente un outlier che non segue il pattern generale delle altre società. L'analista desidera sapere se il modello di previsione cambia quando questo outlier viene escluso.

Esclusione dell'outlier

1.	Fare clic sull'outlier.

2.	Selezionare Righe > Escludi/Annulla esclusione.

3.	Per stimare questo modello, fare clic sul triangolo rosso associato a Stima bivariata di Sales (SM) By # Employ e selezionare Stima lineare.

I seguenti elementi vengono aggiunti alla finestra del report (Figura 5.14 Confronto dei modelli):

•	una nuova linea di regressione

•	un nuovo report Stima lineare, che comprende:

–	una nuova equazione di previsione

–	un nuovo valore R-quadro

Figura 5.14 Confronto dei modelli

Interpretazione dei risultati

Utilizzando i risultati presenti in Figura 5.14 Confronto dei modelli, l'analista può trarre le seguenti conclusioni:

•	L'outlier fa spostare la linea di regressione verso il basso per le società più grandi e verso l'alto per le società più piccole.

•	Il nuovo modello per i dati senza l'outlier è un modello più forte rispetto al primo modello. Il nuovo valore R-quadro di 0,88 è maggiore e più vicino a 1 rispetto all'analisi iniziale.

Utilizzando la nuova equazione di previsione, le vendite medie previste per una società con 70.000 dipendenti possono essere calcolate nel seguente modo:

$8961.37 = 631.37 + 0,119*70.000

La previsione del primo modello era di $7500. Il secondo modello prevede un totale di vendite di circa $8960 o un aumento di $1460 rispetto al primo modello.

Il secondo modello, dopo avere rimosso l'outlier, descrive e prevede totali delle vendite in base al numero dei dipendenti in un modo migliore rispetto al primo modello. L'analista ora dispone di un ottimo modello da utilizzare.

Confronto di medie per una variabile

Se si ha una variabile Y continua e una variabile X categorica, è possibile confrontare le medie sui livelli della variabile X.

Un analista finanziario desidera dare una risposta alla seguente domanda:

Questo esempio utilizza la tabella di dati Companies.jmp, che contiene dati finanziari relativi a 32 società farmaceutiche e di informatica.

•	Come è possibile confrontare i ricavi delle aziende di informatica con i ricavi delle società farmaceutiche?

Per rispondere a questa domanda, stimare Profits ($M) rispetto a Type.

È presente un outlier nel tipo Computer. L'outlier estende la scala del grafico rendendo difficoltoso il confronto dei ricavi. Escludere e nascondere l'outlier:

1.	Selezionare Guida > Libreria dei dati di esempio e aprire Companies.jmp.

2.	Se la tabella di dati Companies.jmp è ancora aperta, è probabile che alcune righe siano escluse o nascoste. Per riportare le righe allo stato predefinito (tutte le righe incluse e nessuna nascosta), selezionare Righe > Cancella stati delle righe.

3.	Selezionare Analizza > Stima Y rispetto a X.

4.	Selezionare Profits ($M) e fare clic su Y, Risposta.

5.	Selezionare Type e fare clic su X, Fattore.

6.	Fare clic su OK.

Figura 5.15 Ricavi per tipo di società

1.	Fare clic sull'outlier.

2.	Selezionare Righe > Escludi/Annulla esclusione. Il punto di dati non è più incluso nei calcoli.

3.	Selezionare Righe > Nascondi/Mostra. Il punto di dati scompare da tutti i grafici.

4.	Per ricreare il diagramma senza l'outlier, fare clic su Analisi a una via di Profits ($M) By Type e selezionare Ripeti > Ripeti analisi. È possibile chiudere la finestra originale del grafico a dispersione.

Figura 5.16 Grafico aggiornato

La rimozione dell'outlier offre all'analista finanziario una visione più chiara dei dati.

5.	Per continuare ad analizzare la relazione, selezionare queste opzioni dal menu associato al triangolo rosso di Analisi a una via di Profits ($M) By Type:

–	Opzioni di visualizzazione > Linee della media. Vengono aggiunte linee della media al grafico a dispersione.

–	Medie e Dev std. Viene visualizzato un report che fornisce le medie e le deviazioni standard.

Figura 5.17 Linee della media e report

Interpretazione dei risultati

L'analista finanziario desiderava sapere come confrontare i ricavi delle aziende di informatica con i ricavi delle società farmaceutiche. Il grafico a dispersione aggiornato mostra che le società farmaceutiche hanno ricavi medi più elevati rispetto alle aziende di informatica. Nel report, se si sottrae un valore medio dall'altro, la differenza nei ricavi è di circa $635 milioni. Il grafico mostra anche che alcune aziende di informatica hanno ricavi in negativo, mentre tutte le società farmaceutiche hanno ricavi in positivo.

Esecuzione deltest t

L'analista finanziario ha preso in esame soltanto un campione di società (le società presenti nella tabella di dati) e ora desidera dare una risposta alle seguenti domande:

•	Esiste una differenza nella popolazione più ampia o la differenza di $635 milioni è casuale?

•	Se esiste una differenza, qual è?

Per rispondere a tali domande, eseguire un test t a due campioni. Un test t consente di utilizzare i dati di un campione per creare inferenze sulla popolazione più ampia.

Per eseguire il test t fare clic sul triangolo rosso associato ad Analisi a una via e selezionare Medie/ANOVA/test t aggregato.

Figura 5.18 Risultati del test t

Il p-value di 0.0001 è minore del livello di significatività di 0.05, a indicare la significatività statistica. Di conseguenza, l'analista finanziario può concludere che la differenza nei ricavi medi per i dati di esempio non è dovuta unicamente a casualità. Ciò significa che nella popolazione più ampia, i ricavi medi delle società farmaceutiche sono diversi dai ricavi medi delle aziende di informatica.

Utilizzare i limiti degli intervalli di confidenza per determinare la differenza esistente nei ricavi di entrambi i tipi di società. Osservare i valori Diff CL superiore e Diff CL inferiore nella Figura 5.18 Risultati del test t. L'analista finanziario conclude che i ricavi medi delle società farmaceutiche sono, per una cifra compresa fra $343 e $926 milioni, maggiori rispetto ai ricavi medi delle aziende di informatica.

Confronto di proporzioni

Se sono presenti le variabili categoriche X e Y, è possibile confrontare le proporzioni dei livelli all'interno della variabile Y con i livelli all'interno della variabile X.

L'analista finanziario desidera sapere se la dimensione di una società influisce maggiormente per un tipo di società rispetto all'altra. Tuttavia, prima di dare una risposta a questa domanda, l'analista finanziario deve sapere se le popolazioni di società di informatica e farmaceutiche sono costituite dalle stesse proporzioni di aziende piccole, medie e grandi.

Questo esempio continua a utilizzare la tabella di dati Companies.jmp. In Confronto di medie per una variabile, un analista finanziario ha determinato che le società farmaceutiche hanno mediamente ricavi più elevati rispetto alle aziende di informatica.

Interpretazione dei risultati

1.	Selezionare Guida > Libreria dei dati di esempio e aprire Companies.jmp.

2.	Se la tabella di dati Companies.jmp è ancora aperta dall'esempio precedente, è probabile che alcune righe siano escluse o nascoste. Per riportare le righe allo stato predefinito (tutte le righe incluse e nessuna nascosta), selezionare Righe > Cancella stati delle righe.

3.	Selezionare Analizza > Stima Y rispetto a X.

4.	Selezionare Size Co e fare clic su Y, Risposta.

5.	Selezionare Type e fare clic su X, Fattore.

6.	Fare clic su OK.

Figura 5.19 Dimensione delle società per tipo di società

La tabella di contingenza contiene informazioni non applicabili a questo esempio. Fare clic sul triangolo rosso associato a Tabella di contingenza e deselezionare % del totale e % di colonne per rimuovere tali informazioni. La Figura 5.20 Tabella di contingenza aggiornata mostra la tabella aggiornata.

Figura 5.20 Tabella di contingenza aggiornata

Le statistiche della tabella di contingenza sono rappresentate graficamente nel diagramma a mosaico. Insieme, il diagramma a mosaico e la tabella di contingenza confrontano le percentuali di società piccole, medie e grandi fra i due settori. Per esempio, il diagramma a mosaico mostra che il settore informatico ha una percentuale più elevata di società di piccole dimensioni rispetto al settore farmaceutico. La tabella di contingenza mostra le statistiche esatte: il 70% delle società di informatica è costituito da aziende di piccole dimensioni e circa il 17% delle società farmaceutiche è rappresentato da aziende di piccole dimensioni.

Interpretazione del test

L'analista finanziario ha preso in esame soltanto un campione di società (le società presenti nella tabella di dati) e deve sapere se le percentuali differiscono nelle popolazioni più ampie di tutte le società di informatica e farmaceutiche.

Per rispondere a questa domanda, utilizzare il p-value dal test di Pearson nel report Test (Dimensione delle società per tipo di società). Poiché il p-value di 0.011 è minore rispetto al livello di significatività di 0.05, l'analista finanziario conclude che:

•	Le differenze nei dati di esempio non sono dovute unicamente a casualità.

•	Le percentuali differiscono nella popolazione più ampia.

Ora l'analista finanziario sa che le proporzioni delle aziende piccole, medie e grandi sono diverse ed è in grado di rispondere alla domanda: la dimensione della società influisce sui ricavi maggiormente per un tipo di società rispetto all'altro?

Confronto di medie per più variabili

La sezione Confronto di medie per una variabile, ha confrontato le medie fra i livelli di una variabile categorica. Per confrontare le medie fra i livelli di due o più variabili contemporaneamente, utilizzare la tecnica Analisi della varianza (o ANOVA).

L'analista finanziario può rispondere alla domanda posta nella sezione Confronto delle proporzioni che è: la dimensione della società ha un effetto maggiore sui ricavi dell'azienda in base al tipo (farmaceutica o di informatica)?

Per rispondere a questa domanda, confrontare i ricavi della società in base a queste due variabili:

•	Tipo (farmaceutica o di informatica)

•	Dimensione (piccola, media, grande)

Per visualizzare le differenze nei ricavi per tutte le combinazioni di tipo e dimensione, utilizzare un grafico:

1.	Selezionare Guida > Libreria dei dati di esempio e aprire Companies.jmp.

2.	Selezionare Grafico > Costruttore di grafici. Viene visualizzata la finestra Costruttore di grafici.

3.	Fare clic su Profits ($M) e trascinarla e rilasciarla nella zona Y.

4.	Fare clic su Size Co e trascinarla e rilasciarla nella zona X.

5.	Fare clic su Type e trascinarla e rilasciarla nella zona Gruppo X.

Figura 5.21 Grafico dei ricavi delle società

Il grafico mostra che una grande azienda di informatica genera ricavi molto elevati. L'outlier estende la scala del grafico rendendo difficoltoso il confronto degli altri punti di dati.

6.	Selezionare l'outlier, fare clic con il pulsante destro del mouse e selezionare Righe > Escludi righe. Il punto viene rimosso e la scala del grafico si aggiorna automaticamente.

7.	Fare clic sull'icona Barra . Il confronto dei ricavi medi risulta più facile con i grafici a barre che non con i punti.

Figura 5.22 Grafico con l'outlier rimosso

Il grafico aggiornato mostra che le società farmaceutiche hanno ricavi medi più elevati. Il grafico mostra anche che i ricavi variano in base alla dimensione delle società soltanto per quelle farmaceutiche. Quando l'effetto di una variabile (dimensione della società) cambia per livelli diversi di un'altra variabile (tipo di società), si tratta di un'interazione.

Quantificazione della relazione

Poiché questi dati rappresentano soltanto un campione, l'analista finanziario deve determinare:

•	se le differenze sono limitate a questo campione e dovute a casualità

•	se esiste lo stesso pattern nella popolazione più ampia

1.	Ritornare alla tabella dei dati di esempio Companies.jmp in cui è stato escluso il punto di dati. Consultare Individuazione della relazione.

2.	Selezionare Analizza > Stima modello.

3.	Selezionare Profits ($M) e fare clic su Y.

4.	Selezionare Type e Size Co.

5.	Fare clic sul pulsante Macro e selezionare Fattoriale completo.

6.	Dal menu Enfasi, selezionare Screening degli effetti.

7.	Selezionare l'opzione Mantieni aperta la finestra di dialogo.

Figura 5.23 Finestra della stima del modello completata

8.	Fare clic su Esegui. La finestra dei report mostra i risultati del modello.

Per stabilire se le differenze nei ricavi sono reali o dovute a casualità, esaminare il report Test degli effetti.

Nota: Per ulteriori informazioni su tutti risultati di Stima modello, consultare il capitolo Model Specification in Fitting Linear Models.

Visualizzazione del test degli effetti

Il report Test degli effetti (Figura 5.24 Report Test degli effetti) mostra i risultati dei test statistici. Esiste un test per ognuno degli effetti inclusi nel modello nella finestra Stima modello: Type, Size Co e Type*Size Co.

Figura 5.24 Report Test degli effetti

Innanzi tutto, osservare l'interazione nel modello nel test: l'effetto Type*Size Co. La Figura 5.22 Grafico con l'outlier rimosso ha dimostrato che le società farmaceutiche sembrano generare ricavi diversi in funzione delle dimensioni. Tuttavia, il test degli effetti indica che non esiste alcuna interazione fra il tipo e la dimensione per quanto riguarda i ricavi. Il p-value di 0.218 è ampio (maggiore del livello di significatività di 0.05). Di conseguenza, rimuovere tale effetto dal modello e rieseguirlo.

1.	Ritornare alla finestra Stima modello.

2.	Nella casella Costruisci effetti del modello, selezionare l'effetto Type*Size Co e fare clic su Rimuovi.

3.	Fare clic su Esegui.

Figura 5.25 Report Test degli effetti aggiornato

Il p-value dell'effetto Size Co è ampio e indica che non esistono differenze in base alla dimensione nella popolazione più ampia. Il p-value per l'effetto Type è piccolo e indica che le differenze rilevate nei dati fra le società farmaceutiche e di informatica non sono dovute a casualità.

L'analista finanziario desiderava sapere se la dimensione della società ha un effetto maggiore sui ricavi della società stessa in base al tipo (farmaceutica o di informatica). L'analista finanziario è ora in grado di rispondere alla domanda nel modo seguente:

•	Esiste una reale differenza nei ricavi fra le società farmaceutiche e di informatica nella popolazione più ampia.

•	Non esiste alcuna correlazione fra la dimensione e il tipo di società e i suoi ricavi.

Utilizzo della regressione con più predittori

La sezione Utilizzo della regressione con un predittore ha dimostrato come creare semplici modelli di regressione costituiti da una variabile predittore e da una variabile di risposta. La regressione multipla prevede la variabile di risposta media utilizzando due o più variabili predittore.

Un dietologo desidera prevedere le calorie utilizzando le seguenti informazioni:

Questo esempio utilizza la tabella di dati Candy Bars.jmp, che contiene informazioni nutrizionali sulle merendine.

•	Grasso totale

•	Carboidrati

•

Proteine

Utilizzare la regressione multipla per prevedere la variabile di risposta media usando queste tre variabili predittore.

Per visualizzare la relazione fra le calorie e il grasso totale, i carboidrati e le proteine, creare una matrice grafico a dispersione:

1.	Selezionare Guida > Libreria dei dati di esempio e aprire Candy Bars.jmp.

2.	Selezionare Grafico > Matrice grafico a dispersione.

3.	Selezionare Calories e fare clic su Y, Colonne.

4.	Selezionare Total fat g, Carbohydrate g e Protein g e fare clic su X.

5.	Fare clic su OK.

Figura 5.26 Risultati della matrice del grafico a dispersione

La matrice del grafico a dispersione mostra che esiste una correlazione positiva fra le calorie e tutte e tre le variabili. La correlazione fra le calorie e la quantità totale di grassi è quella più forte. Ora che il dietologo sa che esiste una relazione, può creare un modello di regressione multipla per prevedere le calorie medie.

Creazione del modello di regressione multipla

Continuare a utilizzare la tabella di dati di esempio Candy Bars.jmp.

1.	Selezionare Analizza > Stima modello.

2.	Selezionare Calories e fare clic su Y.

3.	Selezionare Total Fat g, Carbohydrate g Protein g e fare clic su Aggiungi.

4.	Accanto a Enfasi, selezionare Screening degli effetti.

Figura 5.27 Finestra Stima modello

5.	Fare clic su Esegui.

La finestra dei report mostra i risultati del modello. Per interpretare tali risultati, concentrarsi sulle seguenti aree:

•	Visualizzazione del grafico delle risposte osservate rispetto a risposte attese

•	Interpretazione delle stime dei parametri

•	Utilizzo del Profiler di previsione

Nota: Per ulteriori informazioni su tutti risultati del modello, consultare il capitolo Model Specification in Fitting Linear Models.

Visualizzazione del grafico delle risposte osservate rispetto a risposte attese

Il Grafico delle risposte osservate rispetto a risposte attese mostra le calorie osservate rispetto alle calorie previste. Quanto più i valori previsti si avvicinano ai valori osservati, tanto più i punti sul grafico a dispersione si avvicinano alla linea rossa (Figura 5.28 Grafico delle risposte osservate rispetto alle risposte attese). Poiché i punti sono tutti molto vicini alla linea, è possibile vedere che il modello prevede le calorie in base ai fattori scelti.

Figura 5.28 Grafico delle risposte osservate rispetto alle risposte attese

Un'altra misura della precisione del modello è il valore R-quadro (che appare sotto il grafico in Figura 5.28 Grafico delle risposte osservate rispetto alle risposte attese). Il valore R-quadro misura la percentuale di variabilità in calorie, come spiegato dal modello. Quanto più il valore si avvicina a 1 tanto più un modello fa previsioni corrette. In questo esempio, il valore R-quadro è 0.99.

Interpretazione delle stime dei parametri

Il report Stime dei parametri mostra le seguenti informazioni:

•	I coefficienti del modello

•	I p-value per ogni parametro

Figura 5.29 Report Stime dei parametri

In questo esempio, i p-value sono tutti molto piccoli (<.0001). Ciò indica che tutti e tre gli effetti (grassi, carboidrati e proteine) contribuiscono significativamente alla previsione delle calorie.

È possibile utilizzare i coefficienti del modello per prevedere il valore delle calorie per specifici valori di grassi, carboidrati e proteine. Per esempio, supponiamo di voler prevedere le calorie medie per qualsiasi merendina che abbia le seguenti caratteristiche:

•	Fat = 11 g

•	Carbohydrate = 43 g

•	Protein = 2 g

Utilizzando questi valori, è possibile calcolare le calorie medie previste nel modo seguente:

277.92 = -5.9643 + 8.99*11 + 4.0975*43 + 4.4013*2

Le caratteristiche in questo esempio sono uguali a quelle della merendina Milky Way (a riga 59 della tabella di dati). Le calorie effettive di Milky Way sono 280, a dimostrazione che il modello esegue una previsione corretta.

Utilizzo del Profiler di previsione

Utilizzare il Profiler di previsione per osservare quali cambiamenti nei fattori influiscono sui valori previsti. Le linee del profilo mostrano la grandezza di cambiamento nelle calorie al variare dei fattori. La linea di Total fat g è la più verticale, per indicare che i cambiamenti nel grasso totale hanno gli effetti più ampi sulle calorie.

Figura 5.30 Profiler di previsione

Selezionare e trascinare la linea verticale per ciascun fattore per osservare come cambia il valore previsto. È anche possibile selezionare i valori dei fattori correnti e cambiarli. Per esempio, fare clic sui valori dei fattori e specificare i valori per la merendina Milky Way (riga 59).

Figura 5.31 Valori dei fattori di Milky Way

Nota: Per ulteriori informazioni sul Profiler di previsione, consultare il capitolo Profiler in Profilers.