Summary

This document analyzes the t-test for independent samples, explaining the procedure, assumptions (normality and homoscedasticity), and calculation methods. It also touches on the Welch's t-test as an alternative when assumptions are violated, and the utilization of the Cohen's d for effect size calculation. Lastly, the document shows example usage of the t-test using software like Jamovi.

Full Transcript

La prueba T para muestras independientes En esta prueba se trata de comprobar si existe una diferencia estadísticamente significativa entre las medias de dos grupos, o si lo queremos ver de otro modo, si dos muestras observadas (con diferentes sujetos) proceden de poblaciones equivalentes o no en re...

La prueba T para muestras independientes En esta prueba se trata de comprobar si existe una diferencia estadísticamente significativa entre las medias de dos grupos, o si lo queremos ver de otro modo, si dos muestras observadas (con diferentes sujetos) proceden de poblaciones equivalentes o no en relación a una variable determinada. Como todo contraste de hipótesis, lo que se pretende es, a partir de lo observado en las muestras, determinar qué es lo que ocurre a nivel poblacional. Un ejemplo sería el caso en que quisiéramos comparar las calificaciones en matemáticas de niños y niñas. Las puntuaciones en matemáticas sería la variable dependiente objeto de análisis y la variable ‘sexo’ sería nuestra variable independiente o factor. El estadístico que se utiliza en este tipo de contraste es el que se conoce como T de Student y se calcular mediante: Dicho estadístico sigue una distribución T con N1+N2-2 grados de libertad. Este contraste de medias para grupos independientes exige dos supuestos: Normalidad y Homocedasticidad. Normalidad significa que las muestras estudiadas proceden de poblaciones normales, y homocedasticidad, que ambas poblaciones normales presentan la misma varianza. Hay que decir que la condición de normalidad cuando la muestra es grande (𝑛 ≥ 30) no es necesaria, y aunque en lo referente a la homocedasticidad, las condiciones son más estrictas, tampoco son muy exigentes, lo que quiere decir que los contrastes de media son pruebas bastantes robustas, en el sentido que soportan bastante bien la violación de la normalidad y la homocedasticidad. En cualquier caso, si no se cumple la condición de homocedasticidad, sea la muestra grande o pequeña, lo más aconsejable es aplicar entonces la t de Welch. Que básicamente consiste en ‘corregir’ los grados de libertad, mediante el siguiente cálculo: Para comprobar si se cumple o no el supuesto de homocedasticidad se utiliza la prueba de Levene: En el caso de que la prueba de Levene arrojara un resultado estadísticamente significativo implicaría que las varianzas no son iguales en ambos grupos y que lo aconsejable sería optar por la T de Welch. Algunos autores, entre ellos Hernández Cabrera (2021), argumentan que la prueba t de Welch debería ser la opción predeterminada a la hora de comparar las medias de dos grupos independientes, ya que, como se ha demostrado, funciona mejor que la prueba t de Student cuando los tamaños de muestra y las varianzas son desiguales entre los grupos, y da resultados idénticos cuando los tamaños de muestra y las variaciones son iguales. En la práctica, cuando se comparan las medias de dos grupos, es poco probable que las desviaciones estándar de cada grupo sean idénticas. Esto hace que sea una buena idea usar siempre la prueba t de Welch, de modo que no tenga que hacer suposiciones sobre varianzas iguales, y además nos ahorramos el cálculo de la F de la prueba de Levene. El tamaño del efecto se suele calcular mediante la d de Cohen: Veamos un ejemplo de un análisis T-Test para muestras independientes mediante el programa Jamovi. El ejemplo corresponde al realizado en la página 155 del manual de Hernández (2021). Los datos empleados pueden descargarse del Aula Virtual de la asignatura (08_notas_turno.csv). Y a continuación exponemos los resultados: Plots nota Dejamos al alumno que interprete los resultados obtenidos y los compare con los expuestos en el citado manual. T-Test y Regresión Ahora vamos a tratar de determinar por otro camino la influencia de la variable Turno sobre la variable dependiente Nota. Para ello vamos a convertir la variable categórica turno (que tiene 2 niveles) en variables dummy (0/1). En este caso necesitaremos una única variable dummy que tomará el valor de 0 si es turno de mañana y 1 si es turno de tarde (podría haber sido al revés). A continuación llevamos a cabo un análisis de regresión lineal, tomando como variable criterio o dependiente la variable Nota y como variable predictora o independiente la variable dummy ‘turno, y pediremos a Jamovi que nos muestre la tabla de descomposición de las varianzas (tal como haamos en Fundamentos II). En primer lugar observemos la ecuación de regresión resultante: Y’ = 5,934 – 0,774 * turno Podemos ver como el valor de A (intercepto) se corresponde con la media del grupo de mañana (5.934), y que el valor de la pendiente B es -0,774, exactamente la diferencia entre ambas medias. Así, si en la ecuación sustituimos el valor de turno por 0 (es decir turno de mañana) la Y predicha será 5,934, es decir la media del turno de mañana. Y si sustituimos el valor de turno por 1 (es decir turno de tarde) la Y predicha será 5,157, es decir la media del turno de tarde. El valor de B, por tanto, es -0,774, que no es otra cosa que la diferencia de medias entre ambos grupos, y es precisamente esa diferencia la que pretendemos averiguar si resulta estadísticamente significativa en nuestro estudio. Para ello buscamos en la tabla de la regresión la significación estadística de la pendiente B, y vemos que el contraste arroja un valor de t58 = 1,75, p = 0,0886. (recuerda que en la regresión los grados de libertad de los contrastes B es n – 2), por lo que no rechazamos la Hipótesis Nula de igualdad de medias. Es decir, el contraste resulta IDÉNTICO AL HALLADO MEDIANTE EL CONTRASTE T DE STUDENT. Centrémonos ahora en la tabla de descomposición de las varianzas (Omnibus ANOVA Test). La Suma Cuadrática Total (SCT) es 8,99 + 170,47 = 179,46. De esta, el 5% (R2), es decir 8,99 es la Suma Cuadrática correspondiente a la Regresión (SCR), que es la que tiene que ver con la variable predictora NOTA, mientras que el 95% restante, 170.47, es la Suma Cuadrática Error (SCE) la cual no está asociada a la variable predictora NOTA. La prueba F nos da la significación estadística de esta R 2 . En este caso obtenemos una valor de F1,58 = 3,06, p= 0,086, por lo que concluimos que no hay una relación estadísticamente significativa entre el turno y la nota obtenida. Obsérvese como la p asociada es la misma que anteriormente (0,086), aunque en este caso en vez de obtener como resultado del contraste una variable T, obtenemos una variable con distribución F. Sin embargo, si elevamos el valor de T obtenido con anterioridad (t 58 = 1,75) al cuadrado, obtendremos un valor de F1,58 = 3,06, exactamente el que arroja la prueba de ANOVA. (Recuerde el lector que una variable T con K grados de libertad, si la elevamos al cuadrado se convierte en una variable F con 1 y K grados de libertad). ENHORABUENA, acabas de realizar (aunque de un modo no habitual) tu pimer contraste de medias mediante lo que se conoce como Análisis de Varianza, ANOVA. Esta es la base de todos los temas que vienen a continuación. JAMOVI Y LAS VARIABLES DUMMY El programa Jamovi nos facilita bastante la tarea de trabajar con variables Dummy, ya que el propio programa las crea por nosotros mismos. Así, en el ejemplo anterior, si quisiéramos comparar las medias de ambos grupos mediante el modelo de regresión bastaría añadir la variable categórica ‘turno’ sin necesidad de crear previamente ninguna variable dummy. Obsérvese como los resultados son exactamente iguales a los obtenidos cuando fuimos nosotros los que creamos las variables dummy. La prueba T para muestras dependientes. En el apartado anterior hemos visto el contraste de medias de dos grupos independientes, es decir, los sujetos de cada grupo son individuos diferentes. Sin embargo hay ocasiones en que los sujetos son los mismos individuos en ambos grupos, pero medidos en la misma variable dependiente en dos momentos diferentes, donde siempre habrá un antes y un después, y generalmente un tratamiento entre ambas mediciones. Cada sujeto tiene, por tanto, un par de puntuaciones en la variable dependiente. Por eso, a este caso se le llama también contraste de medias apareadas, repetidas o intragrupo. Ya de entrada, la disposición del fichero de datos es diferente en ambos casos. Supongamos que en un diseño intergrupo tenemos 20 sujetos en cada grupo. Nuestro fichero de datos estará compuesto de 2 columnas: 1 para la variable independiente (grupo) y otra para la variable dependiente, y ocupará 40 filas (20 x 2 sujetos). En el caso de las muestras dependientes, en el que tenemos 20 sujetos medidos en 2 momentos diferentes tendremos también 2 columnas, pero en este caso NO HABRÁ UNA COLUMNA para la variable INDEPENDIENTE, y en cambio tendremos DOS COLUMNAS PARA LA VARIABLE DEPENDIENTE, que podríamos denominar (por ejemplo) ‘antes’ y ‘despu és’. El fichero en este caso ocupará tan solo 20 filas. Evidentemente, no hace falta decirlo, en cada fila deben de estar las 2 puntuaciones del MISMO SUJETO (por eso lo de medidas o medias apareadas). En este caso, el estadístico de contraste es donde d es la diferencia entre las puntuaciones antes – después (o viceversa, como se prefiera) de cada individuo. El estadístico Tcalc obtenido se distribuye según la curva T con n-1 grados de libertad. La media de las diferencias del numerador es igual que la diferencia de las medias antes – después (revisar las propiedades de la media estudiadas en FM I), por lo que el numerador es el mismo que en el caso de los contrastes intergrupos. La diferencia está ahora en el denominador, ya que la varianza es diferente en ambos casos. En el modelo de medidas repetidas la varianza es menor que en el caso intergrupo (ademas, cuanto mayor es la correlación entre las puntuaciones antes – después, menor es la varianza) . Por ello al dividir el mismo numerador por una cantidad menor obtendremos una T mayor en el caso de los diseños de medidas repetidas. Es por ello, que una misma diferencia de medias alcanza un mayor tamaño de efecto en el caso de las medidas repetidas. Veámoslo con un ejemplo en Jamovi (corresponde al ejemplo de la página 264 de Navarro y Foxcroft, 2022). en el que se detallan las puntuaciones final de curso de unos alumnos al final del grado 1 y del grado 2 (6 y 7 años respectivamente). Como puede apreciarse, existen diferencias estadísticamente significativas entre las 2 medidas (t19 = -6,48, p < 0,001, d=-1,45). A modo de curiosidad. En el contraste de medidas repetidas el investigador en lo que realmente está interesado es un comprobar si existen diferencias significativas entre las puntuaciones antes-después para cada individuo. Por ello, en el fondo es sobre esa variable Diferencia sobre la que se centra el contraste de hipótesis. Por ello, otra forma de enfocar el asunto es calcular una nueva variable que sea la diferencia entre las puntuaciones Antes – Despu és (o viceversa) y llevar a cabo un contraste de hipótesis de una sola media en la que se comprueba si la diferencia de medias es estadísticamente diferente de cero (o del cualquier otro valor). A continuación presentamos el ejercicio anterior pero resuelto esta vez mediante el módulo ‘One Sample Test’ de Jamovi una vez creada la variable Diferencia = Antes – Después. Como se observa los resultados son los mismos que los hallados anteriormente. APÉNDICE. REDACCIÓN DE RESULTADOS. Pasaremos a continuación a exponer las diferentes resultados de las pruebas T realizadas en este tema: formas de redactar los 1- Diseño Intergrupo. a) Para analizar la relación entre el turno de asistencia y la nota final se llevó a cabo una prueba T de medias independientes, no encontrándose diferencias estadísticamente significativas entre ambos turnos en la nota obtenida, t(58 ) = 1.75, p=0.08 , d = 0.45. b) Para analizar la relación entre el turno de asistencia y la nota final se llevó a cabo una prueba T de medias independientes, La prueba de Levene mostró que se cumplía con el supuesto de homogeneidad de varianzas, p=.71, El contraste no detectó diferencias estadísticamente significativas entre ambos turnos en la nota obtenida, t(58 ) = 1.75, p=0.08 , d = 0.45. c) …. se llevó a cabo un contraste T de medias independientes en el que se tomó como variable independiente el turno de asistencia y como variable dependiente la nota final de curso. Los resultados muestran que no existen diferencias estadísticamente significativas entre ambos turnos en la nota obtenida, t(58 ) = 1.75, p=0.08 , d = 0.45. Nota: La comprobación de los supuestos de las pruebas es un asunto que concierne principalmente al investigador, y en base a lo cual decide qué estadístico utiliza y qué corrección debe llevar a cabo, por lo que no es habitual encontrar esta información en los resultados de los artículos que se publican. Es más, el lector con solo prestar atención a los grados de libertad ya es capaz de detectar si se ha utilizado la T de Student o la T de Welch (¿sabrías cómo?), con lo que puede inferir si las varianzas son o no homogéneas. 2- Diseño Intragrupo. a) Para determinar si las notas finales aumentaban al pasar de curso se llevó a cabo una prueba T de muestras relacionadas en la que se tomó como variable dependiente la nota final de curso y como variable independiente [o factor intragrupo] el año académico en el que se tomaron las notas. Los resultados muestran que existen diferencias estadísticamente significativas entre las notas medidas en los diferentes años (t(19) = 6,48, p < 0,001, d=-1,45), siendo la media del grado 2 (M = 58.4, DT = 6.41) superior a la del grado 1 (M = 57, DT = 6.62) 3- Correlación/ Regresión (repaso) ...se llevó a cabo un análisis de regresión tomando como variable predictora el turno de asistencia y como variable criterio las notas finales. a) Los resultados muestran que la variable turno no predice de forma estadísticamente significativa las puntuaciones en la nota final, β = -.22, t(58) = -1.75, p .086. b) Los resultados muestran que la proporción de varianza de la variable nota explicada por el turno turno no es estadísticamente significativa, r2 = .05, F(1, 58) = 3.06, p=0.086. …se calculó el coeficiente de correlación de Pearson entre las variables turno de asistencia y nota final, no encontrándose ninguna correlación estadísticamente significativa entre ambas, r(58) = .22, p = .0.86.

Use Quizgecko on...
Browser
Browser