Analizar las relaciones

Intuitivamente, tiene sentido que las empresas con más empleados pueden generar más ingresos de ventas que las empresas con menos empleados. Un analista de datos desea predecir los ingresos por ventas globales para cada empresa a partir del número de empleados.

Este ejemplo utiliza la tabla de datos Companies.jmp, que contiene datos financieros de 32 empresas de los sectores farmacéutico e informático.

Para completar esta tarea, haga lo siguiente:

•	Descubrir la relación

•	Ajustar el modelo de regresión

•	Predecir el volumen medio de las ventas

El gráfico de dispersión proporciona una imagen clara de la relación entre las ventas y el número de empleados. Tal como se esperaba, cuantos más empleados tiene una empresa, más ventas puede generar. Esto confirma visualmente la conjetura del analista de datos pero no sirve para predecir las ventas para un número determinado de empleados.

En primer lugar, cree un gráfico de dispersión para ver la relación entre el número de empleados y el valor de los ingresos por ventas. Este gráfico de dispersión se creó en el Crear el gráfico de dispersión en el capítulo Visualizar sus datos. Después de ocultar y excluir un valor atípico (una empresa con un número de empleados y ventas significativamente mayor), el gráfico de la Figura 7.12 Gráfico de dispersión de Sales ($M) frente a # Employ muestra el resultado.

Figura 7.12 Gráfico de dispersión de Sales ($M) frente a # Employ

Ajustar el modelo de regresión

Para predecir los ingresos por ventas a partir del número de empleados, ajuste un modelo de regresión. Haga clic en el triángulo rojo junto a Ajuste bivariante y seleccione Ajustar línea. Se añade una recta de regresión en el gráfico de dispersión y aparecen informes en la ventana de resultados.

Figura 7.13 Recta de regresión

En los informes, consulte los resultados siguientes:

•	el valor p de <,0001

•	El valor R cuadrado de 0,618

A partir de estos resultados, el analista de datos puede llegar a estas conclusiones:

•

El valor p del término del modelo #Employ es pequeño. Esto sostiene que, al nivel de significación 0,05, el coeficiente de #Employ no sea cero. Por consiguiente, al incluir el número de empleados en el modelo de predicción mejora significativamente la capacidad de predecir el volumen medio de ventas con respecto a un modelo sin el número de empleados.

•

El valor R cuadrado de 0,618 indica que este modelo explica cerca del 62% de la variabilidad en las ventas. El valor R cuadrado es el coeficiente de determinación e indica la proporción de la varianza en la variable dependiente (respuesta) que explica su modelo. El valor R cuadrado puede oscilar de 0 a 1. Un modelo con un valor R cuadrado de 0 no tiene poder explicativo. Un modelo con un valor de R cuadrado de 1 predice la respuesta perfectamente.

Predecir el volumen medio de las ventas

Utilice el modelo de regresión para predecir el volumen medio de ventas esperable en una empresa que tenga un cierto número de empleados. La ecuación de predicción del modelo aparece en el informe:

Ventas medias = 1059,68 + 0,092*empleados

Por ejemplo, en una empresa con 70.000 empleados, se predice que las ventas sean de aproximadamente 7500 USD:

7499,68 USD = 1059,68 + 0,092*70.000

En el área inferior derecha del gráfico de dispersión actual, hay un valor atípico que no sigue el patrón general del resto de empresas. El analista de datos desea saber si el modelo de predicción cambia al excluir este valor atípico.

Excluir el valor atípico

1.	Haga clic en el valor atípico.

2.	Seleccione Filas > Excluir/Anular la exclusión.

3.	Para ajustar este modelo, haga clic en el triángulo rojo situado junto a Ajuste bivariante de Sales (SM) por # Employ y seleccione Ajustar línea.

En la ventana de resultados se añade lo siguiente (Figura 7.14 Comparación de los modelos):

•	una nueva recta de regresión

•	un nuevo informe de ajuste lineal, que incluye:

–	una nueva ecuación de predicción

–	un nuevo valor R cuadrado

Figura 7.14 Comparación de los modelos

Interpretar los resultados

Usando los resultados de la Figura 7.14 Comparación de los modelos, el analista de datos puede sacar las conclusiones siguientes:

•	El valor atípico hacía que la recta de regresión tomase valores demasiado pequeños para las empresas grandes y demasiado elevados para las empresas pequeñas.

•	El nuevo modelo para los datos sin el valor atípico es un modelo más fuerte que el primer modelo. El nuevo valor R cuadrado de 0,88 es mayor y más cercano a 1 que el análisis inicial.

Usando la nueva ecuación de predicción, el volumen medio de ventas previsto para una empresa de 70.000 empleados se calcularía así:

8961,37 USD = 631,37 + 0,119*70.000

La predicción del primer modelo fue de cerca de 7500 USD. El segundo modelo predice un total de ventas de 8960 USD o un aumento de 1460 USD en comparación con el primer modelo.

El segundo modelo, después de quitar el valor atípico, describe y predice las ventas totales basadas en el número de empleados mejor que el primer modelo. Ahora el analista de datos dispone de un buen modelo para usar.

Comparar medias para una variable

Si disponemos de una variable Y continua y una variable X categórica, podemos comparar las medias entre los distintos niveles de la variable X.

Un analista financiero desea estudiar lo siguiente:

Este ejemplo utiliza la tabla de datos Companies.jmp, que contiene datos financieros de 32 empresas de los sectores farmacéutico e informático.

•	¿Cómo es la rentabilidad de las empresas de informática en comparación con la de las empresas farmacéuticas?

Para responder a esta pregunta, ajuste los beneficios (Profits ($M)) por tipo (Type).

Hay un valor atípico en el tipo Computer (informática). El valor atípico estira la escala del gráfico y dificulta la comparación de los beneficios. Excluya y oculte el valor atípico:

1.	Seleccione Ayuda > Librería de datos de muestra y abra Companies.jmp.

2.	Si todavía tiene la tabla de la muestra de datos Companies.jmp abierta, es posible que tenga filas excluidas u ocultas. Para devolver las filas al estado predeterminado (todas las filas incluidas y ninguna oculta), seleccione Filas > Borrar estados de fila.

3.	Seleccione Análisis > Ajustar Y en función de X.

4.	Seleccione Profits ($M) y haga clic en Y, Respuesta.

5.	Seleccione Type y haga clic en X, Factor.

6.	Haga clic en Aceptar.

Figura 7.15 Beneficios por tipo de empresa

1.	Haga clic en el valor atípico.

2.	Seleccione Filas > Excluir/Anular la exclusión. El punto de datos deja de incluirse en los cálculos.

3.	Seleccione Filas > Ocultar/Mostrar. El punto de datos se oculta en todos los gráficos.

4.	Para volver a crear el gráfico sin el valor atípico, haga clic en Análisis univariante de Profits ($M) por Type y seleccione Rehacer > Rehacer análisis. La ventana del gráfico de dispersión original se puede cerrar.

Figura 7.16 Gráfico actualizado

Al quitar el valor atípico el analista financiero obtiene una vista más clara de los datos.

5.	Para continuar analizando la relación, seleccione estas opciones en el triángulo rojo situado junto a Análisis univariante de Profits ($M) por Type:

–	Opciones de visualización > Líneas de la media. Esta opción agrega las líneas de la media al gráfico de dispersión.

–	Medias y desviaciones estándar. Esta opción muestra un informe que contiene las medias y las desviaciones estándar.

Figura 7.17 Líneas de la media e informe

Interpretar los resultados

El analista financiero deseaba saber cómo eran los beneficios de las empresas de informática frente a los de las empresas farmacéuticas. El gráfico de dispersión actualizado muestra que las empresas farmacéuticas tienen beneficios medios superiores que las empresas de informática. En el informe, si restamos el valor medio de unas y otras, la diferencia de beneficios es de unos 635 millones de USD. El gráfico también indica que algunas empresas de informática tienen pérdidas mientras que todas las empresas farmacéuticas tienen beneficios.

Realizar la prueba t

El analista financiero ha mirado solo una muestra de empresas (las que figuran en la tabla de datos). Ahora, el analista financiero desea examinar estas cuestiones:

•	¿Existe una diferencia real en la población general, o la diferencia de 635 millones de USD se debe al azar?

•	Si la diferencia existe, ¿cuál es?

Para resolver estas preguntas, realicemos una prueba t para dos muestras. Una prueba t permite usar datos de una muestra para inferir acerca de la población mayor.

Para realizar la prueba t, haga clic en el triángulo rojo junto a Análisis univariante y seleccione Medias/ANOVA/t combinada.

Figura 7.18 Resultados de la prueba t

El valor p de 0,0001 es menor que el nivel de significación de 0,05, lo cual indica que hay significación estadística. Por consiguiente, el analista financiero puede concluir que la diferencia de beneficios medios de la muestra de datos no solo se debe al azar. Esto significa que en la población mayor, los beneficios medios de las empresas farmacéuticas son distintos de los beneficios medios de las empresas de informática.

Utilice los límites del intervalo de confianza para determinar cuál es la diferencia entre los beneficios de ambos tipos de empresas. Veamos los valores de Diferencia del límite de control superior y Diferencia del límite de control inferior en la Figura 7.18 Resultados de la prueba t. El analista financiero concluye que el beneficio medio de las empresas farmacéuticas es entre 343 millones de USD y 926 millones de USD mayor que el beneficio medio de las empresas de informática.

Comparar proporciones

Si dispone de variables categóricas X e Y, puede comparar las proporciones de los niveles de la variable Y respecto a los niveles de la variable X.

Ahora el analista financiero desea saber si el tamaño de una empresa afecta a los beneficios en un tipo de empresa en mayor medida que en el otro. No obstante, antes de examinar esta cuestión, el analista financiero necesita saber si las poblaciones de empresas de informática y empresas farmacéuticas contienen las mismas proporciones de empresas pequeñas, medianas y grandes.

Este ejemplo sigue utilizando la tabla de datos Companies.jmp. En Comparar medias para una variable, un analista financiero determinó que las empresas farmacéuticas tienen, en promedio, beneficios superiores que las empresas de informática.

Interpretar los resultados

1.	Seleccione Ayuda > Librería de datos de muestra y abra Companies.jmp.

2.	Si todavía tiene el archivo de datos Companies.jmp abierto del ejemplo anterior, es posible que tenga filas excluidas u ocultas. Para devolver las filas al estado predeterminado (todas las filas incluidas y ninguna oculta), seleccione Filas > Borrar estados de fila.

3.	Seleccione Análisis > Ajustar Y en función de X.

4.	Seleccione Size Co y haga clic en Y, Respuesta.

5.	Seleccione Type y haga clic en X, Factor.

6.	Haga clic en Aceptar.

Figura 7.19 Tamaño de empresa frente a tipo de empresa

La Tabla de contingencia contiene información que no es aplicable a este ejemplo. Haga clic en el menú con triángulo rojo junto a Tabla de contingencia y deseleccione % total y % columna para quitar esa información. Figura 7.20 Tabla de contingencia actualizada muestra la tabla actualizada.

Figura 7.20 Tabla de contingencia actualizada

Las estadísticas de la tabla de contingencia se representan gráficamente en el gráfico en mosaico. Juntos, el gráfico en mosaico y la tabla de contingencia sirven para comparar los porcentajes de empresas pequeñas, medianas y grandes entre los dos sectores. Por ejemplo, el gráfico en mosaico muestra que el sector de la informática contiene un porcentaje mayor de pequeñas empresas que el sector farmacéutico. La Tabla de contingencia muestra la estadística exacta: un 70% de las empresas de informática son pequeñas, y un 17% de las empresas farmacéuticas son pequeñas.

Interpretar la prueba

El analista financiero ha mirado solo una muestra de empresas (las que figuran en la tabla de datos). El analista financiero necesita saber si los porcentajes difieren en las poblaciones generales de todas las empresas de informática y farmacéuticas.

Para responder a esta pregunta, utilizamos el valor p de la prueba de Pearson del informe Pruebas (Tamaño de empresa frente a tipo de empresa). Puesto que el valor p de 0,011 es menor que el nivel de significación de 0,05, el analista financiero puede sacar estas conclusiones:

•	Las diferencias entre las muestras de datos no solo se deben al azar.

•	Los porcentajes también difieren en la población general.

Ahora el analista financiero sabe que las proporciones de pequeñas, medianas y grandes empresas son distintas y puede responder a la pregunta: ¿afecta el tamaño de la empresa a los beneficios más en un tipo de empresas que en el otro?

Comparar medias de múltiples variables

En la sección Comparar medias para una variable se comparaban las medias en distintos niveles de una variable categórica. Para comparar las medias entre los niveles de dos o más variables a la vez, utilice la técnica de Análisis de la varianza (o ANOVA).

El analista financiero puede responder a la pregunta con la cual comenzamos a trabajar en la sección sobre comparación de proporciones, que es: ¿afecta en mayor medida el tamaño de la empresa a los beneficios en función del tipo de empresa (de informática o farmacéutica)?

Para responder a esta pregunta, comparamos los beneficios de las empresas en función de estas dos variables:

•	Type (farmacéutica o de informática)

•	Size (pequeña, mediana o grande)

Para visualizar las diferencias entre los beneficios de todas las combinaciones de tipo y tamaño, utilizamos un gráfico:

1.	Seleccione Ayuda > Librería de datos de muestra y abra Companies.jmp.

2.	Seleccione Gráficos > Constructor de gráficos. Se abrirá la ventana del Constructor de gráficos.

3.	Haga clic en Profits ($M) y arrástrelo y suéltelo a la zona Y.

4.	Haga clic en Size Co y arrástrelo y suéltelo en la zona X.

5.	Haga clic en Type y arrástrelo y suéltelo en la zona Grupo X.

Figura 7.21 Gráfico de los beneficios de las empresas

El gráfico muestra que una empresa de informática grande tiene grandes beneficios. Ese valor atípico estira la escala del gráfico y dificulta la comparación de los demás puntos de datos.

6.	Seleccione el valor atípico y, a continuación, haga clic con el botón derecho y seleccione Filas > Exclusión de filas. El punto se quita y la escala del gráfico se actualiza automáticamente.

7.	Haga clic en el icono de la barra. Comparar los beneficios medios es más fácil con un gráfico de barras que con puntos.

Figura 7.22 Gráfico después de quitar el valor atípico

El gráfico actualizado muestra que las empresas farmacéuticas tienen beneficios medios superiores. También muestra que los beneficios difieren en función del tamaño de las empresas solamente para las empresas farmacéuticas. Cuando el efecto de una variable (tamaño de empresa) cambia según los niveles de otra variable (tipo de empresa), se dice que hay una interacción.

Cuantificar la relación

Puesto que estos datos solo son una muestra, el analista financiero necesita determinar lo siguiente:

•	si las diferencias se limitan a esta muestra y se deben al azar

•	si existe el mismo patrón en la población general

1.	Vuelva a la tabla de la muestra de datos Companies.jmp con el punto de datos excluido. Consulte Descubrir la relación.

2.	Seleccione Análisis > Ajuste del modelo.

3.	Seleccione Profits ($M) y haga clic en Y.

4.	Seleccione Type y Size Co.

5.	Haga clic en el botón Macros y seleccione Factorial completo.

6.	En el menú Énfasis, seleccione Cribado de los efectos.

7.	Seleccione la opción Mantener abierto el cuadro de diálogo.

Figura 7.23 Ventana Ajuste del modelo completada

8.	Haga clic en Ejecutar. La ventana de resultados muestra los resultados del modelo.

Para decidir si las diferencias entre beneficios son reales o se deben al azar, examine el informe Pruebas de los efectos.

Nota: Para conocer más detalles acerca de todos los resultados del Ajuste del modelo, consulte de Fitting Linear Models.

Consultar Pruebas de los efectos

El informe Pruebas de los efectos (Figura 7.24 Informe Pruebas de los efectos) muestra los resultados de las pruebas estadísticas. Existe una prueba para cada efecto incluido en el modelo en la ventana Ajuste del modelo: Type, Size Co y Type*Size Co.

Figura 7.24 Informe Pruebas de los efectos

En primer lugar, veamos la prueba de la interacción del modelo: el efecto Type*Size Co. En la Figura 7.22 Gráfico después de quitar el valor atípico se observaba que las empresas farmacéuticas parecían tener beneficios distintos en función del tamaño de la empresa. No obstante, la prueba del efecto indica que no hay interacción entre el tipo y el tamaño en cuanto a beneficios se refiere. El valor p de 0,218 es grande (mayor que el nivel de significación de 0,05). Por consiguiente, podemos quitar ese efecto del modelo y volver a ejecutarlo.

1.	Vuelva a la ventana Ajuste del modelo.

2.	En el cuadro Construir efectos del modelo, seleccione el efecto Type*Size Co y haga clic en Quitar.

3.	Haga clic en Ejecutar.

Figura 7.25 Informe Pruebas de los efectos actualizado

El valor p del efecto Size Co es grande, lo cual indica que no hay diferencias debidas al tamaño en la población general. El valor p del efecto Type es pequeño, lo cual indica que las diferencias observadas en los datos entre las empresas de informática y las empresas farmacéuticas no se deben al azar.

El analista financiero deseaba saber si el tamaño de la empresa tiene un efecto distinto sobre los beneficios de las empresas en función de su tipo (de informática o farmacéutica). Ahora, el analista financiero puede responder a la pregunta como sigue:

•	Existe una diferencia real entre los beneficios de las empresas de informática y farmacéuticas en la población general.

•	No existe ninguna correlación entre el tamaño y tipo de empresa y sus beneficios.

Utilizar la regresión con múltiples predictores

En la sección Utilizar la regresión con un predictor se mostraba cómo se pueden construir modelos simples de regresión con un predictor y una variable de respuesta. La regresión múltiple predice la variable respuesta media utilizando dos o más predictores.

Un dietista desea realizar una predicción de las calorías a partir de la información siguiente:

Este ejemplo utiliza la tabla de datos Candy Bars.jmp, que contiene información nutricional de barras de caramelo.

•	Grasa total

•	Carbohidratos

•

Proteínas

Utilice la regresión múltiple para realizar una predicción de la variable respuesta media utilizando estos tres predictores.

Para visualizar la relación entre calorías y grasa total, carbohidratos y proteínas, creamos una matriz de gráficos de dispersión:

1.	Seleccione Ayuda > Librería de datos de muestra y abra Candy Bars.jmp.

2.	Seleccione Gráficos > Matriz de gráficos de dispersión.

3.	Seleccione Calories y haga clic en Y, Columnas.

4.	Seleccione Total fat g, Carbohydrate g y Protein g y haga clic en X.

5.	Haga clic en Aceptar.

Figura 7.26 Resultados de la matriz de gráficos de dispersión

La matriz de gráficos de dispersión muestra que existe una correlación positiva entre las calorías y las tres variables. La correlación entre calorías y la grasa total es la más fuerte. Ahora que el dietista sabe que existe una relación, puede construir un modelo de regresión múltiple para predecir las calorías medias.

Construir el modelo de regresión múltiple

Siga utilizando la tabla de la muestra de datos Candy Bars.jmp.

1.	Seleccione Análisis > Ajuste del modelo.

2.	Seleccione Calories y haga clic en Y.

3.	Seleccione Total fat g, Carbohydrate g y Protein g y haga clic en Agregar.

4.	Junto a Énfasis, seleccione Cribado de los efectos.

Figura 7.27 Ventana Ajuste del modelo

5.	Haga clic en Ejecutar.

La ventana de resultados muestra los resultados del modelo. Para interpretar los resultados del modelo, centrémonos en estas áreas:

•	Consultar el gráfico Observados frente a predichos

•	Interpretar la estimación de los parámetros

•	Utilizar el Perfilador de predicción

Nota: Para conocer más detalles acerca de todos los resultados del modelo, consulte de Fitting Linear Models.

Consultar el gráfico Observados frente a predichos

El gráfico Observados frente a predichos muestra las calorías reales frente a las predichas. Puesto que los valores predichos se acercan a los valores reales, los puntos del gráfico de dispersión quedan cerca de la línea roja (Figura 7.28 Gráfico Observados frente a predichos). Como se puede observar, los puntos están muy cerca de la línea, así que el modelo predice bien las calorías a partir de los factores elegidos.

Figura 7.28 Gráfico Observados frente a predichos

Otra medida de precisión del modelo es el valor R cuadrado, que aparece debajo del gráfico en la Figura 7.28 Gráfico Observados frente a predichos. El valor RSq mide el porcentaje de la variabilidad de las calorías explicada por el modelo. Un valor cerca de 1 significa que el modelo predice bien. En este ejemplo, el valor RSq es 0,99.

Interpretar la estimación de los parámetros

El informe Estimación de los parámetros contiene la información siguiente:

•	los coeficientes del modelo

•	los valores p de cada parámetro

Figura 7.29 Informe Estimación de los parámetros

En este ejemplo, los valores p son muy pequeños (<0,0001). Esto indica que los tres efectos (grasa, carbohidratos y proteínas) contribuyen de forma significativa a la predicción de calorías.

Los coeficientes del modelo se pueden usar para predecir el valor de las calorías con valores determinados de grasa, carbohidratos y proteínas. Por ejemplo, supongamos que queremos predecir las calorías medias de cualquier barra de caramelo que tenga estas características:

•	Grasa = 11 g

•	Carbohidratos = 43 g

•	Proteínas = 2 g

Con estos valores se puede calcular una predicción de las calorías medias así:

277,92 = -5,9643 + 8,99*11 + 4,0975*43 + 4,4013*2

Las características de este ejemplo son las mismas que las de la barra de caramelo Milky Way (en la fila 59 de la tabla de datos). El valor real de calorías de Milky Way es 280, lo cual indica que el modelo predice bien.

Utilizar el Perfilador de predicción

Mediante el Perfilador de predicción se puede estudiar cómo los cambios en los factores afectan a los valores predichos. Las líneas de perfil muestran la magnitud del cambio en las calorías a medida que cambia el factor. La línea de Total fat g es la más inclinada, lo cual significa que las variaciones en la grasa total tienen el efecto mayor sobre las calorías.

Figura 7.30 Perfilador de predicción

Haga clic y arrastre la línea vertical correspondiente a cada factor para ver cómo cambia el valor predicho. También puede hacer clic en los valores actuales de los factores y cambiarlos. Por ejemplo, haga clic en los valores del factor y escriba los valores de la barra de caramelo Milky Way (fila 59).

Figura 7.31 Valores de los factores para Milky Way

Nota: Para obtener más información acerca del Perfilador de predicción, consulte de Profilers.