Los gráficos de dispersión y otros gráficos parecidos ayudan a visualizar las relaciones entre variables. Una vez visualizadas estas relaciones, el paso siguiente es analizarlas para describirlas numéricamente. Esta descripción numérica de la relación entre variables se llama modelo. Es más importante saber que un modelo también predice el valor medio de una variable (Y) a partir del valor de otra variable (X). La variable X también se denomina predictor. Generalmente, este modelo se llama modelo de regresión.
En JMP, la plataforma Ajustar Y en función de X y la plataforma Ajuste del modelo crean modelos de regresión.
Tabla 7.3 Tipos de relaciones muestra los cuatro tipos principales de relaciones.
Este ejemplo utiliza la tabla de datos Companies.jmp, que contiene datos financieros de 32 empresas de los sectores farmacéutico e informático.
Figura 7.12 Gráfico de dispersión de Sales ($M) frente a # Employ
Para predecir los ingresos por ventas a partir del número de empleados, ajuste un modelo de regresión. Haga clic en el triángulo rojo junto a Ajuste bivariante y seleccione Ajustar línea. Se añade una recta de regresión en el gráfico de dispersión y aparecen informes en la ventana de resultados.
Figura 7.13 Recta de regresión
el valor p de <,0001
El valor p del término del modelo #Employ es pequeño. Esto sostiene que, al nivel de significación 0,05, el coeficiente de #Employ no sea cero. Por consiguiente, al incluir el número de empleados en el modelo de predicción mejora significativamente la capacidad de predecir el volumen medio de ventas con respecto a un modelo sin el número de empleados.
2.
Seleccione Filas > Excluir/Anular la exclusión.
Figura 7.14 Comparación de los modelos
Usando los resultados de la Figura 7.14 Comparación de los modelos, el analista de datos puede sacar las conclusiones siguientes:
Este ejemplo utiliza la tabla de datos Companies.jmp, que contiene datos financieros de 32 empresas de los sectores farmacéutico e informático.
1.
Seleccione Ayuda > Librería de datos de muestra y abra Companies.jmp.
2.
Si todavía tiene la tabla de la muestra de datos Companies.jmp abierta, es posible que tenga filas excluidas u ocultas. Para devolver las filas al estado predeterminado (todas las filas incluidas y ninguna oculta), seleccione Filas > Borrar estados de fila.
3.
Seleccione Análisis > Ajustar Y en función de X.
4.
Seleccione Profits ($M) y haga clic en Y, Respuesta.
5.
Seleccione Type y haga clic en X, Factor.
6.
Figura 7.15 Beneficios por tipo de empresa
2.
Seleccione Filas > Excluir/Anular la exclusión. El punto de datos deja de incluirse en los cálculos.
3.
Seleccione Filas > Ocultar/Mostrar. El punto de datos se oculta en todos los gráficos.
4.
Para volver a crear el gráfico sin el valor atípico, haga clic en Análisis univariante de Profits ($M) por Type y seleccione Rehacer > Rehacer análisis. La ventana del gráfico de dispersión original se puede cerrar.
Figura 7.16 Gráfico actualizado
Opciones de visualización > Líneas de la media. Esta opción agrega las líneas de la media al gráfico de dispersión.
Medias y desviaciones estándar. Esta opción muestra un informe que contiene las medias y las desviaciones estándar.
Figura 7.17 Líneas de la media e informe
Para resolver estas preguntas, realicemos una prueba t para dos muestras. Una prueba t permite usar datos de una muestra para inferir acerca de la población mayor.
Para realizar la prueba t, haga clic en el triángulo rojo junto a Análisis univariante y seleccione Medias/ANOVA/t combinada.
Figura 7.18 Resultados de la prueba t
El valor p de 0,0001 es menor que el nivel de significación de 0,05, lo cual indica que hay significación estadística. Por consiguiente, el analista financiero puede concluir que la diferencia de beneficios medios de la muestra de datos no solo se debe al azar. Esto significa que en la población mayor, los beneficios medios de las empresas farmacéuticas son distintos de los beneficios medios de las empresas de informática.
Utilice los límites del intervalo de confianza para determinar cuál es la diferencia entre los beneficios de ambos tipos de empresas. Veamos los valores de Diferencia del límite de control superior y Diferencia del límite de control inferior en la Figura 7.18 Resultados de la prueba t. El analista financiero concluye que el beneficio medio de las empresas farmacéuticas es entre 343 millones de USD y 926 millones de USD mayor que el beneficio medio de las empresas de informática.
Si dispone de variables categóricas X e Y, puede comparar las proporciones de los niveles de la variable Y respecto a los niveles de la variable X.
Este ejemplo sigue utilizando la tabla de datos Companies.jmp. En Comparar medias para una variable, un analista financiero determinó que las empresas farmacéuticas tienen, en promedio, beneficios superiores que las empresas de informática.
1.
Seleccione Ayuda > Librería de datos de muestra y abra Companies.jmp.
2.
Si todavía tiene el archivo de datos Companies.jmp abierto del ejemplo anterior, es posible que tenga filas excluidas u ocultas. Para devolver las filas al estado predeterminado (todas las filas incluidas y ninguna oculta), seleccione Filas > Borrar estados de fila.
3.
Seleccione Análisis > Ajustar Y en función de X.
4.
Seleccione Size Co y haga clic en Y, Respuesta.
5.
Seleccione Type y haga clic en X, Factor.
6.
Figura 7.19 Tamaño de empresa frente a tipo de empresa
Figura 7.20 Tabla de contingencia actualizada
Para responder a esta pregunta, utilizamos el valor p de la prueba de Pearson del informe Pruebas (Tamaño de empresa frente a tipo de empresa). Puesto que el valor p de 0,011 es menor que el nivel de significación de 0,05, el analista financiero puede sacar estas conclusiones:
En la sección Comparar medias para una variable se comparaban las medias en distintos niveles de una variable categórica. Para comparar las medias entre los niveles de dos o más variables a la vez, utilice la técnica de Análisis de la varianza (o ANOVA).
Type (farmacéutica o de informática)
Size (pequeña, mediana o grande)
1.
Seleccione Ayuda > Librería de datos de muestra y abra Companies.jmp.
2.
Seleccione Gráficos > Constructor de gráficos. Se abrirá la ventana del Constructor de gráficos.
3.
Haga clic en Profits ($M) y arrástrelo y suéltelo a la zona Y.
4.
Haga clic en Size Co y arrástrelo y suéltelo en la zona X.
5.
Haga clic en Type y arrástrelo y suéltelo en la zona Grupo X.
Figura 7.21 Gráfico de los beneficios de las empresas
6.
Seleccione el valor atípico y, a continuación, haga clic con el botón derecho y seleccione Filas > Exclusión de filas. El punto se quita y la escala del gráfico se actualiza automáticamente.
Figura 7.22 Gráfico después de quitar el valor atípico
1.
Vuelva a la tabla de la muestra de datos Companies.jmp con el punto de datos excluido. Consulte Descubrir la relación.
2.
Seleccione Análisis > Ajuste del modelo.
3.
Seleccione Profits ($M) y haga clic en Y.
4.
Seleccione Type y Size Co.
5.
Haga clic en el botón Macros y seleccione Factorial completo.
6.
En el menú Énfasis, seleccione Cribado de los efectos.
7.
Seleccione la opción Mantener abierto el cuadro de diálogo.
Figura 7.23 Ventana Ajuste del modelo completada
8.
Haga clic en Ejecutar. La ventana de resultados muestra los resultados del modelo.
El informe Pruebas de los efectos (Figura 7.24 Informe Pruebas de los efectos) muestra los resultados de las pruebas estadísticas. Existe una prueba para cada efecto incluido en el modelo en la ventana Ajuste del modelo: Type, Size Co y Type*Size Co.
Figura 7.24 Informe Pruebas de los efectos
En primer lugar, veamos la prueba de la interacción del modelo: el efecto Type*Size Co. En la Figura 7.22 Gráfico después de quitar el valor atípico se observaba que las empresas farmacéuticas parecían tener beneficios distintos en función del tamaño de la empresa. No obstante, la prueba del efecto indica que no hay interacción entre el tipo y el tamaño en cuanto a beneficios se refiere. El valor p de 0,218 es grande (mayor que el nivel de significación de 0,05). Por consiguiente, podemos quitar ese efecto del modelo y volver a ejecutarlo.
3.
Haga clic en Ejecutar.
Figura 7.25 Informe Pruebas de los efectos actualizado
El valor p del efecto Size Co es grande, lo cual indica que no hay diferencias debidas al tamaño en la población general. El valor p del efecto Type es pequeño, lo cual indica que las diferencias observadas en los datos entre las empresas de informática y las empresas farmacéuticas no se deben al azar.
En la sección Utilizar la regresión con un predictor se mostraba cómo se pueden construir modelos simples de regresión con un predictor y una variable de respuesta. La regresión múltiple predice la variable respuesta media utilizando dos o más predictores.
Este ejemplo utiliza la tabla de datos Candy Bars.jmp, que contiene información nutricional de barras de caramelo.
Utilice la regresión múltiple para realizar una predicción de la variable respuesta media utilizando estos tres predictores.
1.
Seleccione Ayuda > Librería de datos de muestra y abra Candy Bars.jmp.
2.
Seleccione Gráficos > Matriz de gráficos de dispersión.
3.
Seleccione Calories y haga clic en Y, Columnas.
4.
Seleccione Total fat g, Carbohydrate g y Protein g y haga clic en X.
5.
Figura 7.26 Resultados de la matriz de gráficos de dispersión
1.
Seleccione Análisis > Ajuste del modelo.
2.
Seleccione Calories y haga clic en Y.
3.
Seleccione Total fat g, Carbohydrate g y Protein g y haga clic en Agregar.
4.
Junto a Énfasis, seleccione Cribado de los efectos.
Figura 7.27 Ventana Ajuste del modelo
5.
Haga clic en Ejecutar.
Figura 7.28 Gráfico Observados frente a predichos
Otra medida de precisión del modelo es el valor R cuadrado, que aparece debajo del gráfico en la Figura 7.28 Gráfico Observados frente a predichos. El valor RSq mide el porcentaje de la variabilidad de las calorías explicada por el modelo. Un valor cerca de 1 significa que el modelo predice bien. En este ejemplo, el valor RSq es 0,99.
los valores p de cada parámetro
Figura 7.29 Informe Estimación de los parámetros
En este ejemplo, los valores p son muy pequeños (<0,0001). Esto indica que los tres efectos (grasa, carbohidratos y proteínas) contribuyen de forma significativa a la predicción de calorías.
Figura 7.30 Perfilador de predicción
Figura 7.31 Valores de los factores para Milky Way