Prueba de ji cuadrado de bondad de ajuste

¿Qué es la prueba ji cuadrado de bondad de ajuste?

La prueba ji cuadrado de bondad de ajuste es una prueba de hipótesis estadística que se usa para averiguar si es probable que una variable provenga o no de una distribución específica. Se emplea a menudo para determinar si los datos de una muestra son representativos de la población completa.

¿Cuándo puedo usar esta prueba?

Puede usar esta prueba cuando tenga conteos de valores de una variable categórica.

¿Esta prueba es igual que la prueba de ji cuadrado de Pearson?

Sí.

Usar la prueba de ji cuadrado de bondad de ajuste

La prueba de ji cuadrado de bondad de ajuste comprueba si es probable que los datos de la muestra vengan de una distribución teórica específica. Tenemos un conjunto de valores de datos y cierta idea sobre cómo se distribuyen. Esta prueba nos da una manera de decidir si los datos se ajustan lo bastante bien a nuestra idea o debemos revisarla.

¿Qué necesito?

Para la prueba de bondad de ajuste necesitamos una variable. También necesitamos una idea, o hipótesis, de la distribución de la misma. He aquí un par de ejemplos:

  • Tenemos bolsas de caramelos con cinco sabores distintos cada una. Las bolsas deben tener el mismo número de caramelos de cada sabor. La idea que queremos comprobar es que la proporción de sabores por bolsa es la misma.
  • En un grupo de equipos deportivos infantiles, queremos repartir de forma uniforme entre equipos a participantes con mucha experiencia, con poca y con ninguna. Digamos que sabemos que un 20 por ciento de la gente tiene mucha experiencia, un 65 por ciento tiene poca y un 15 por ciento acaban de empezar a jugar y no tienen ninguna. La idea que queremos comprobar es que cada equipo tiene la misma proporción de personas con mucha, poca o ninguna experiencia que la liga en su conjunto.

Para aplicar la prueba de bondad de ajuste a un conjunto de datos necesitamos:

  • Valores de datos que son una muestra aleatoria simple de la población completa.
  • Datos categóricos o nominales. La prueba de ji cuadrado de bondad de ajuste no es adecuada para datos continuos.
  • Un conjunto de datos lo bastante grande como para esperar al menos cinco valores en cada categoría de datos observada. 

Ejemplo de prueba de ji cuadrado de bondad de ajuste

Vamos a usar las bolsas de caramelos de ejemplo. Reunimos una muestra aleatoria de diez bolsas. Cada bolsa tiene 100 caramelos de cinco sabores. Nuestra hipótesis es que la proporción de los cinco sabores en cada bolsa es la misma.

Vamos a empezar por responder a esto: ¿es la prueba de ji cuadrado de bondad de ajuste un método apropiado para evaluar la distribución de sabores en las bolsas de caramelos?

  • Tenemos una muestra aleatoria de 10 bolsas. Cumplimos este requisito.
  • Nuestra variable categórica son los sabores de caramelo. Tenemos el conteo para cada sabor en las 10 bolsas. Cumplimos este requisito.
  • Cada bolsa tiene 100 caramelos. Cada bolsa tiene cinco sabores. Esperamos tener el mismo número en cada sabor. Esto significa que esperamos 100 / 5 = 20 caramelos de cada sabor en cada bolsa. En las 10 bolsas de nuestra muestra, esperamos 10 x 20 = 200 caramelos de cada sabor. Esto excede el requisito de al menos cinco valores esperados en cada categoría.

Partiendo de las respuestas anteriores, sí, la prueba de ji cuadrado de bondad de ajuste es un método adecuado para evaluar la distribución de sabores en las bolsas de caramelos. 

En la figura 1 se muestran los conteos combinados de sabores de las 10 bolsas de caramelos.

Figura 1: Diagrama de barras con los conteos de sabores de las 10 bolsas

Sin hacer estadísticas, ya podemos ver que el número de caramelos de cada sabor no es el mismo. Tenemos menos de los 200 caramelos esperados de algunos sabores y de otros tenemos más. Pero, ¿cómo de distintas son las proporciones? ¿Los números son lo bastante próximos como para decir que en muchas bolsas habrá la misma cantidad de caramelos de cada sabor? ¿O son demasiado distintos como para sacar esa conclusión? Otra forma de decirlo es: ¿nuestros valores de datos tienen un ajuste «lo bastante bueno» a la idea de un mismo número de caramelos de cada sabor o no?

Para decidirlo, hallamos la diferencia entre lo que tenemos y lo que esperamos. Luego, para dar a los sabores con menos piezas de las esperadas la misma importancia que a los sabores con más piezas de las esperadas, elevamos la diferencia al cuadrado. A continuación, dividimos el cuadrado entre el conteo esperado y sumamos los valores. Esto nos da la estadística de la prueba.

Estos pasos son mucho más fáciles de entender si usamos los valores de nuestro ejemplo.

Empecemos listando lo que esperamos si cada bolsa de caramelos tiene los mismos de cada sabor.  Arriba hemos calculado 200 para 10 bolsas.

Tabla 1: Comparación entre números reales y esperados de caramelos de cada sabor

SaborNúmero de caramelos (10 bolsas)Número esperado de caramelos
Manzana180200
Lima250200
Cereza120200
Cereza225200
Uva225200

Ahora, hallamos la diferencia entre lo que observamos en nuestros datos y lo que esperábamos. La última columna de la tabla 2 a continuación indica esta diferencia:

Tabla 2: Diferencia entre cantidades de caramelos observadas y esperadas para cada sabor

SaborNúmero de caramelos (10 bolsas)Número esperado de caramelosObservada-Esperada
Manzana180200180-200 = -20
Lima250200250-200 = 50
Cereza120200120-200 = -80
Naranja225200225-200 = 25
Uva225200225-200 = 25

Algunas diferencias son negativas y otras positivas. Si las sumáramos a secas, nos daría cero. En lugar de eso, usaremos sus cuadrados. Esto da la misma importancia a aquellos sabores donde hay menos caramelos de lo esperado y a aquellos donde hay más de lo esperado.

Tabla 3: Cálculo del cuadrado de las diferencias entre cantidades observadas y esperadas para cada sabor

SaborNúmero de caramelos (10 bolsas)Número esperado de caramelosObservada-EsperadaDiferencia al cuadrado
Manzana180200180-200 = -20400
Lima250200250-200 = 502500
Cereza120200120-200 = -806400
Naranja225200225-200 = 25625
Uva225200225-200 = 25625

A continuación dividimos el cuadrado de las diferencias entre el número esperado:

Tabla 4: Cálculo del cuadrado de la diferencia entre el número esperado de caramelos de cada sabor

SaborNúmero de caramelos (10 bolsas)Número esperado de caramelosObservada-EsperadaDiferencia al cuadradoDiferencia al cuadrado / Número esperado
Manzana180200180-200 = -20400400 / 200 = 2
Lima250200250-200 = 5025002500 / 200 = 12,5
Cereza120200120-200 = -8064006400 / 200 = 32
Naranja225200225-200 = 25625625 / 200 = 3,125
Uva225200225-200 = 25625625 / 200 = 3,125

Finalmente, sumamos las cifras de la última columna para calcular la estadística de nuestra prueba:

2 + 12,5 + 32 + 3,125 + 3,125 = 52,75

Para sacar una conclusión, comparamos la estadística de la prueba con un valor crítico de la distribución ji cuadrado. Esta actividad tiene cuatro fases:

  1. En primer lugar, decidimos qué riesgo estamos dispuestos a asumir de extraer una conclusión incorrecta a partir de las observaciones de la muestra. Para los datos de los caramelos decidimos, antes de recopilar los datos, que estamos dispuestos a asumir un riesgo de un 5% de concluir que los conteos de sabores en cada bolsa en toda la población no son iguales, cuando en realidad lo son. En lenguaje de estadísticas, establecemos el nivel de significación, α , en 0,05.
  2. Calculamos una estadística de prueba. Nuestra estadística de prueba es de 52,75.
  3. Hallamos el valor teórico de la distribución ji cuadrado a partir de nuestro nivel de significación. El valor teórico es el valor que esperaríamos si las bolsas contienen el mismo número de unidades de caramelos de cada sabor.

    Aparte del nivel de significación, también necesitamos para hallar este valor los grados de libertad. Para la prueba de bondad de ajuste, esto es uno menos que el número de categorías. Tenemos cinco sabores de caramelos, así que tenemos 5 – 1 = 4 grados de libertad.

    El valor de ji cuadrado con α = 0,05 y 4 grados de libertad es 9,488.
  4. Comparamos el valor de nuestra estadística de prueba (52,75) con el valor de ji cuadrado. Como 52,75 > 9,488, rechazamos la hipótesis nula de que las proporciones de sabores de los caramelos son iguales.

 

Llegamos a la conclusión práctica de que las bolsas de caramelos en toda la población no tienen el mismo número de unidades de los cinco sabores. Esto tiene sentido si se examinan los datos originales. Si su sabor favorito es lima, es probable que tenga más de este sabor que de los otros. Si su sabor favorito es cereza, es probable que no esté contento porque habrá menos unidades de caramelos de cereza de las que espera.

Comprender los resultados

Vamos a utilizar unos gráficos para comprender la prueba y los resultados.

Un simple diagrama de barras de los datos muestra los conteos observados para los sabores de los caramelos:

 

Figura 2: Diagrama de barras de los conteos observados para sabores de caramelos

Otro diagrama de barras simple muestra los conteos esperados de 200 por sabor. Este sería el aspecto del gráfico si las bolsas de caramelos tuvieran el mismo número de unidades de cada sabor.

Figura 3: Diagrama de barras de los conteos esperados de cada sabor

El diagrama comparativo a continuación muestra el número real observado de unidades de caramelos en azul. Las barras naranjas muestran el número esperado de unidades. Puede ver que algunos sabores tienen más unidades de las esperadas, y otros, menos. 

Figura 4: Diagrama de barras que compara los conteos reales de unidades de caramelos con los esperados

La prueba estadística es una forma de cuantificar la diferencia. ¿Son los datos reales de nuestra muestra “lo bastante próximos” a lo esperado para concluir que las proporciones de sabores de toda la población de bolsas son iguales? ¿O no? A partir de los datos anteriores sobre los caramelos, la mayor parte de personas dirían que los datos no son “lo bastante próximos”, incluso sin una prueba estadística.

¿Y si sus datos tuvieran, en cambio, el aspecto del ejemplo de la figura 5 a continuación? Las barras violetas muestran los conteos observados y las naranjas, los esperados. Algunas personas dirían que los datos son "lo bastante próximos"; otras dirían que no. La prueba estadística aporta un método común para tomar la decisión, de manera que todas las personas tomen la misma decisión partiendo del mismo conjunto de datos. 

Figura 5: Diagrama de barras en el que se comparan los valores esperados y los reales utilizando otro conjunto de datos de ejemplo

Detalles estadísticos

Vamos a echar un vistazo a los datos de los caramelos y a la prueba de bondad de ajuste ji cuadrado utilizando términos estadísticos. Esta prueba se denomina también prueba de ji cuadrado de Pearson.

Nuestra hipótesis nula es que la proporción de sabores en cada bolsa es la misma. Tenemos cinco sabores. La hipótesis nula se escribe así:

$ H_0: p_1 = p_2 = p_3 = p_4 = p_5 $

La fórmula anterior utiliza p para la proporción de cada sabor. Si cada bolsa de 100 unidades contiene el mismo número de unidades de caramelos de cada uno de los cinco sabores, entonces la bolsa contiene 20 unidades de cada sabor. La proporción de cada sabor es 20 / 100 = 0,2.

La hipótesis alternativa es que al menos una de las proporciones es diferente de las demás. Esto se expresa así:

$ H_a: al\ menos\ un\ p_i\ no\ igual $

En algunos casos, no estamos haciendo la prueba de si las proporciones son iguales. Vuelva a mirar el ejemplo de los equipos deportivos infantiles, en la parte superior de esta página.  Utilizándolo como ejemplo, nuestras hipótesis nula y alternativa son:

$ H_0: p_1 = 0.2, p_2 = 0.65, p_3 = 0.15 $

$ H_a: al\ menos\ un\ p_i\ no\ igual\ a\ valor\ esperado $

A diferencia de otras hipótesis que implican un solo parámetro de población, no podemos utilizar simplemente una fórmula. Tenemos que utilizar palabras y símbolos para describir nuestra hipótesis.

Calculamos la mejor prueba estadística utilizando la fórmula siguiente:

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

En la fórmula anterior, tenemos n grupos. El símbolo $ \sum $ significa sumar los cálculos para cada grupo. Para cada grupo, realizamos los mismos pasos que en el ejemplo de los caramelos. La fórmula muestra Oi  como Valor observado, y Ei  como Valor esperado para un grupo.

A continuación comparamos la estadística de la prueba con un valor de ji cuadrado con el nivel de significación (también denominado nivel alfa) que hemos elegido, y los grados de libertad de nuestros datos. Utilizando los datos de los caramelos como ejemplo, definimos α = 0,05 y tenemos cuatro grados de libertad. Para los datos de los caramelos, el valor de ji cuadrado se escribe como:

$ χ²_{0,05,4} $

Nuestra comparación tiene dos posibles resultados:

  • La estadística de la prueba es menor que el valor de ji cuadrado. No puede rechazar la hipótesis de proporciones iguales. Llega a la conclusión de que las bolsas de caramelos en toda la población contienen el mismo número de unidades de cada sabor. El ajuste de proporciones iguales es "lo bastante bueno".
  • La estadística de la prueba es mayor que el valor de ji cuadrado. Rechaza la hipótesis de proporciones iguales. No puede llegar a la conclusión de que cada bolsa de caramelos contiene el mismo número de unidades de cada sabor. El ajuste de proporciones iguales es "no lo bastante bueno".

Vamos a utilizar un gráfico de la distribución ji cuadrado para entender mejor los resultados de la prueba. Está comprobando si la estadística de la prueba es un valor más extremo de la distribución que el valor crítico. A continuación se muestra una distribución ji cuadrado con cuatro grados de libertad. Muestra cómo un valor crítico de 9,488 "excluye" un 95 % de los datos. Solo el 5 % de los datos es mayor que 9,488.

Figura 6: Distribución ji cuadrado para cuatro grados de libertad

En el siguiente gráfico de distribución se incluyen nuestros resultados. Puede verse lo lejos "en la cola" que queda nuestra estadística de prueba, representada por la línea de puntos en 52,75. De hecho, con esta escala, parece como si la curva estuviera en cero donde intersecta con la línea de puntos. No lo está, pero está realmente próxima a cero. Podemos llegar a la conclusión de que es muy poco probable que esta situación suceda por azar. Si la verdadera población de bolsas de caramelos tuviera conteos de sabores iguales, sería extremadamente improbable que viéramos los resultados que hemos recopilado de nuestra muestra aleatoria de 10 bolsas.

Figura 7: Distribución ji cuadrado para cuatro grados de libertad con la estadística de la prueba representada

La mayor parte del software estadístico muestra el valor p de una prueba. Es la probabilidad de hallar un valor más extremo para la estadística de la prueba en una muestra similar, suponiendo que la hipótesis nula es correcta. Es difícil calcular el valor p a mano. Para la figura anterior, si la estadística de la prueba es exactamente 9,488, el valor p será p=0,05. Con una estadística de la prueba de 52,75, el valor p es muy, muy pequeño. En este ejemplo, la mayor parte del software estadístico indicaría el valor p como “p < 0,0001”. Esto significa que la probabilidad de que otra muestra de 10 bolsas de caramelos tenga como resultado un valor más extremo para la estadística de la prueba es menor que uno entre 10 000, suponiendo que nuestra hipótesis nula de conteos de sabores iguales sea cierta.