La prueba t pareada

¿Qué es una prueba t pareada?

La prueba t pareada es un método que se usa para comprobar si la media entre pares de medidas es o no igual a cero.

¿Cuándo puedo usar esta prueba?

Puede usar esta prueba cuando sus valores correspondan a medidas emparejadas. Por ejemplo, si tiene medidas de antes y después para un grupo de personas. Además, la distribución de diferencias entre medidas emparejadas debe tener una distribución normal.

¿Qué otros nombres tiene la prueba t pareada?

La prueba t pareada también se conoce como prueba t de pares dependientes, prueba t de diferencias, prueba t de pares emparejados o prueba t de muestras (o medidas) repetidas.

¿Y si mis datos no tienen una distribución próxima a la normal?

Si los tamaños de sus muestras son muy pequeños, es posible que no pueda hacer la prueba de normalidad. Puede que deba basarse en su comprensión de los datos. También puede hacer una prueba no paramétrica que no asuma la normalidad.

Usar la prueba t pareada

En las secciones siguientes comentamos qué se necesita para efectuar la prueba, cómo comprobar nuestros datos, cómo llevar a cabo la prueba y detalles estadísticos.

¿Qué necesito?

Para una prueba t pareada necesitamos dos variables. Una variable define los pares de observación. La segunda es una medida. En ocasiones ya contamos con las diferencias por pares de la variable de medida. En otras, tenemos variables separadas con las medidas del «antes» y el «después» de cada par y tenemos que calcular las diferencias.

También tenemos una idea, o una hipótesis, de que las diferencias entre pares son cero. He aquí tres ejemplos:

  • Un grupo de personas con la piel seca usan una loción con principio activo en un brazo y una sin él en el otro. Una semana después, un médico mide el enrojecimiento en cada brazo. Queremos saber si la loción con principio activo es mejor que la que no lo tiene. Hacemos esto comprobando si el brazo que ha recibido el principio está menos rojo que el otro. Puesto que tenemos pares de medidas para cada persona, buscamos las diferencias. Entonces comprobamos si la diferencia de medias es cero o no.
  • Medimos el peso de personas en un programa para dejar de fumar. Para cada persona, contamos con un peso inicial y otro al finalizar el programa. Queremos saber si el cambio medio de peso de los participantes del programa es cero o no.
  • Una instructora entrega un examen a varios estudiantes, y al día siguiente les da otro distinto sobre la misma materia. La instructora quiere averiguar si ambos exámenes tienen la misma dificultad. Calculamos la diferencia en calificaciones de cada estudiante. Comprobamos si la diferencia de medias es cero o no. 

Asunciones de la prueba t pareada

Para usar una prueba t pareada para comprobar las diferencias entre medidas emparejadas, debemos partir de las siguientes asunciones:

  • Los sujetos deben ser independientes. Las medidas de un sujeto no afectan a las de ningún otro.
  • Cada pareja de medidas debe obtenerse del mismo sujeto. Por ejemplo, los pesos de antes y después de una persona fumadora del ejemplo anterior deben provenir de la misma persona.
  • Las diferencias de medidas tienen distribución normal.

Ejemplo de prueba t pareada

Una instructora quiere usar dos exámenes en sus clases del curso siguiente. Este curso, entrega ambos exámenes a sus estudiantes. Quiere saber si los exámenes tienen la misma dificultad y pretende comprobarlo observando la diferencia entre calificaciones. Si la diferencia de medias entre calificaciones de sus estudiantes es «próxima a cero», podrá concluir que los exámenes tienen la misma dificultad. Estos son los datos:

Tabla 1: notas por estudiante

Estudiante

Notas examen 1

Notas examen 2

Diferencia

Bob63696
Nina65650
Tim56626
Kate10091-9
Alonzo8878-10
Jose83874
Nikhil77792
Julia9288-4
Tohru9085-5
Michael84928
Jean68691
Indra74817
Susan8784-3
Allen647511
Paul718413
Edwina8882-6

Si mira la tabla de arriba verá que las diferencias entre calificaciones a veces son positivas y otras negativas. Podría pensar que los dos exámenes tienen la misma dificultad. Otros podrían discrepar. La prueba estadística aporta un método común para tomar la decisión, de manera que todas las personas tomen la misma decisión partiendo de los mismos datos. 

Comprobar los datos

Empecemos respondiendo a lo siguiente: ¿la prueba t pareada es un método adecuado para evaluar la diferencia de dificultades entre ambos exámenes?

  • Los sujetos son independientes. Cada estudiante hace sus exámenes por su cuenta.
  • Cada una de las parejas de medidas se toma del mismo sujeto. Cada estudiante hace ambos exámenes.
  • Las diferencias tienen una distribución normal. Por ahora, asumamos que es el caso. Lo comprobaremos más tarde.

Decidimos que hemos escogido un método de análisis adecuado.

Antes de pasar al análisis, debemos disponer gráficamente los datos. En la siguiente figura se muestran el histograma y estadísticas de resumen de las diferencias de calificación.

Figura 1: Histograma y estadísticas de resumen para las diferencias entre calificaciones de examen.

En el histograma podemos ver que no hay puntos extraños o valores atípicos. Los datos tienen aproximadamente forma de campana, así que nuestra idea de una distribución normal parece razonable.

En las estadísticas podemos ver que la diferencia media es de 1,3. ¿Se acerca esto lo bastante a cero para que la instructora decida que ambos exámenes tienen la misma dificultad? ¿O no?

Cómo efectuar la prueba t pareada

Explicaremos en mayor detalle los principios en los que se basa la prueba t pareada en la sección de Detalles estadísticos, más abajo, pero antes vamos a recorrer todos los pasos, de principio a fin. Empezaremos por calcular nuestra estadística de prueba. Para hacerlo necesitamos la diferencia media, la desviación estándar de la diferencia y el tamaño muestral. Estos se muestran en la figura 1 más arriba. (Nótese que las estadísticas se han redondeado al segundo decimal a continuación. A menudo el software mostrará más decimales y los usará en los cálculos).

La diferencia media de calificaciones es:

$ \overline{x_d} = 1,31 $

A continuación calculamos el error estándar de las diferencias de calificación. El cálculo es:

$ \text{Error estándar} = \frac{s_d}{\sqrt{n}} = \frac{7.00}{\sqrt{16}} = \frac{7.00}{4} = 1,75 $

En la fórmula anterior, n es el número de estudiantes, que es el número de diferencias. La desviación estándar de diferencias es sd.

Ahora tenemos las piezas para nuestra estadística de prueba. Calculamos la estadística de nuestra prueba así:

$ t = \dfrac{\text{Diferencia media}}{\text{Error estándar}} = \frac{1.31}{1.75} = 0,750 $

Para tomar nuestra decisión, comparamos la estadística de la prueba con un valor de la distribución t. Esta actividad tiene cuatro fases:

  1. Decidimos el riesgo que estamos dispuestos a asumir por declarar una diferencia donde no la hay. Para las calificaciones de examen, decidimos asumir un riesgo del 5 % al declarar que la media desconocida de las diferencias de calificación es cero cuando en realidad no lo es. En lenguaje de estadísticas, establecemos el nivel de significación, representado por α, en 0,05. Se considera buena práctica tomar esta decisión antes de recopilar los datos y de calcular las estadísticas de la prueba.
  2. Calculamos una estadística de prueba. Nuestra estadística de prueba es de 0,750.
  3. Hallamos el valor de la distribución t. En la mayor parte de libros de estadística hay tablas de distribución que se pueden consultar. También se pueden encontrar en línea. La situación más probable es utilizar software para el análisis y no tablas impresas.

    Para hallar este valor, necesitamos el nivel de significación (α = 0,05) y los grados de libertad. Los grados de libertad (gl) se basan en el tamaño muestral. Para los datos de puntuación, serían:

    $ df = n - 1 = 16 - 1 = 15 $

    El valor t con un α = 0,05 y 15 grados de libertad es 2,131.
  4. Comparamos el valor de nuestra estadística (0,750) al valor t. Puesto que 0,750 < 2,131, no podemos rechazar la idea de que la diferencia de puntuación media sea cero. Llegamos a la conclusión práctica de considerar ambos exámenes igual de difíciles.

Detalles estadísticos

Repasemos los datos de puntuación de los exámenes y la prueba t pareada en términos estadísticos.

Nuestra hipótesis nula es que la media de población de las diferencias es cero. La hipótesis nula se escribe así:

$ H_o:  \mathrm{\mu_d} = 0 $

La hipótesis alternativa es que la media de población de las diferencias es distinta de cero. Esto se expresa así:

$ H_o:  \mathrm{\mu_d} \neq 0 $

Calculamos el error estándar así:

Error estándar = $  \frac{s_d}{\sqrt{n}} $

La fórmula muestra la desviación estándar de ejemplo de las diferencias como sd y el tamaño muestral como n

La estadística de la prueba se calcula como:

$ t = \frac{\mathrm{\mu_d}}{\frac{s}{\sqrt{n}}} $

Comparamos la estadística de la prueba con un valor t, con nuestro valor alfa elegido y los grados de libertad de nuestros datos. En el ejemplo de los datos del examen, definimos α = 0,05. Los grados de libertad (gl) se basan en los tamaños de los grupos, y se calculan así:

$ gl = n - 1 = 16 - 1 = 15 $

Los estadísticos escriben el valor de t con α = 0,05 y 15 grados de libertad como:

$ t_{0.05,15} $

El valor t con α = 0,05 y 15 grados de libertad es de 2,131. Nuestra comparación tiene dos posibles resultados:

  • La estadística de la prueba es menor que el valor de t. No puede rechazar la hipótesis de que la diferencia de medias es cero. La conclusión práctica que hace la instructora es que ambos exámenes son igual de difíciles. El próximo curso podrá usar ambos exámenes para entregar un examen a la mitad de la clase y el otro a la otra mitad.
  • La estadística de la prueba es mayor que el valor de t. Rechaza la hipótesis de que la diferencia de medias es cero. La conclusión práctica que hace la instructora es que ambos exámenes tienen una dificultad distinta. Debe usar el mismo para toda la clase.

Probar si hay normalidad

La hipótesis de normalidad es más importante para tamaños muestrales pequeños que para muestras grandes.

Las distribuciones normales son simétricas, es decir, "iguales" a ambos lados del centro. Las distribuciones normales no tienen valores extremos ni valores atípicos. Puede comprobar estas dos características de una distribución normal con gráficos. Antes decidimos que los datos de calificaciones estaban «lo bastante próximos» a la distribución normal como para seguir adelante con la hipótesis de normalidad. En la siguiente figura se muestra un gráfico de cuantiles normales de los datos y apoya nuestra decisión.

Figura 2: gráfico de cuantiles normales de los datos del examen

También puede llevar a cabo una prueba formal de normalidad utilizando software. La figura 3 a continuación muestra los resultados de la prueba de normalidad con JMP. Comprobamos la distribución de las diferencias de notas. No podemos rechazar la hipótesis de distribución normal. Podemos seguir adelante con la prueba pareada.

Figura 3: prueba de normalidad en el software de JMP

¿Y si mis datos no tienen una distribución normal?

Si los tamaños de sus muestras son muy pequeños, es difícil hacer la prueba de normalidad. En tal caso, debe basarse en su comprensión de las medidas. Por ejemplo, para los datos de calificaciones, la instructora sabe que la distribución subyacente de las diferencias de nota tiene una distribución normal. Incluso para una muestra pequeña, la instructora probablemente seguiría adelante con la prueba t y asumiría normalidad.

¿Y si se sabe que las medidas subyacentes no siguen una distribución normal? ¿O si el tamaño muestral es grande y se rechaza la prueba de normalidad? En esta situación, se puede utilizar el análisis no paramétrico. Estos tipos de análisis no dependen de una hipótesis de que los valores de datos siguen una distribución específica. Para la prueba t ­pareada, una prueba no paramétrica sería la prueba de los rangos con signo de Wilcoxon. 

Comprender los valores p

Utilizando una visualización, se puede comprobar si la estadística de la prueba es un valor más extremo en la distribución. La distribución t es similar a una distribución normal. En la figura inferior se muestra una distribución t con 15 grados de libertad.

Figura 4: distribución t con 15 grados de libertad y α = 0,05

Como nuestra prueba es bilateral y hemos definido α = 0,05, la figura muestra que el valor de 2,131 «corta» el 2,5 % de los datos en ambas colas. Solo el 5 % de los datos globales está más lejos en las colas que 2,131.

La figura 5 muestra dónde cae en el gráfico nuestro resultado. Puede ver que la estadística de la prueba (0,75) no se aparta lo suficiente «hacia las colas» para rechazar la hipótesis de una diferencia de medias de cero.

Figura 5: resultados de la prueba t – la estadística de la prueba es menor que |2,131|

Combinarlo todo con el software

Para hacer una prueba t pareada en el mundo real, lo más probable es que use software casi todo el tiempo. La siguiente figura muestra los resultados de la prueba-t pareada de los datos de puntuación de exámenes con JMP.

Figura 6: resultados de la prueba t pareada de las notas de examen usando el software de JMP

El software muestra resultados para una prueba bilateral (Prob > |t|) y para las pruebas unilaterales. La que queremos es la prueba bilateral. Nuestra hipótesis nula es que la media de las diferencias entre parejas de puntuaciones de examen es cero. Nuestra hipótesis alternativa es que la diferencia de medias es distinta de cero.

El software muestra un valor de p de 0,4650 para la prueba bilateral. Esto indica que la posibilidad de encontrar una diferencia de medias de muestra de 1,31 o más, con una diferencia de medias subyacente de cero, es de unas 47 de cada 100. Tenemos confianza en nuestra decisión de no rechazar la hipótesis nula. La instructora puede seguir adelante con su plan de usar ambos exámenes para entregar un examen a la mitad de la clase y el otro a la otra mitad.