Repaso (1).pptx
Document Details
Uploaded by SpiritualJoy
Comillas
Full Transcript
Tema 1: Introducción a la estadística inferencial Pablo Fernández Cáncer Tipos de variable • Categóricas • Nominales (dicotómicas o politómicas) • Ordinales • Cuantitativas • Continuas (pueden tener decimales) • Discretas (no tienen decimales) Media, varianza y desviación típica • Media: • Res...
Tema 1: Introducción a la estadística inferencial Pablo Fernández Cáncer Tipos de variable • Categóricas • Nominales (dicotómicas o politómicas) • Ordinales • Cuantitativas • Continuas (pueden tener decimales) • Discretas (no tienen decimales) Media, varianza y desviación típica • Media: • Resumen de las puntuaciones de una variable. Es el valor que minimiza el error que cometo cuando resumo todas las puntuaciones en un solo número. • Error: • El error indica cuánto me desvío de un valor determinado. Este valor puede ser una media, una predicción, etc. • Varianza: • Es el grado de dispersion de las puntuaciones (o de los errores). Se puede interpreter como una cuantificación del error que cometemos cuando caracterizamos a la muestra con un único valor (la media). Es decir, la varianza resume los errores en un solo número. Media, varianza y desviación típica • Desviación típica: • Nos informa de lo mismo que la varianza, pero está en distinta métrica. • Si la variable se distribuye de forma normal, nos permiten saber en torno a qué valores se acumulan la mayoría de los sujetos Inferencia estadística La inferencia es un razonamiento que procede de lo particular a lo general: intenta extraer conclusiones de tipo general a partir de unos pocos datos particulares. Al hablar de conclusiones de tipo general nos estamos refiriendo a conclusions sobre una población o alguno de sus parámetros, y al hablar de datos particulares, hablamos de una muestra o sus estadísticos. Inferencia estadística Población: - Conjunto de elementos (personas) que poseen una o más características en común. Muestra: - Subconjunto de elementos de una población. Características de los parámetros: - Son valores que describen poblacionales - Son valores desconocidos. - Son valores constantes. - Para referirnos a ellos, utilizaremos letras griegas minúsculas (ej., , etc.) Características de los estadísticos: - Son valores que describen muestras - Son valores conocidos - Son valores que varían de una muestra a otra. - Se representan con letras latinas mayúsculas (, etc.) Puntuaciones típicas Las puntuaciones típicas se calculan como: Sirven para: - Situar a personas con respecto a la media grupal (ej. Pedro está 2 desviaciones típicas por encima de la media en inteligencia. Por tanto, sabemos que Pedro es más inteligente que el 90 y tantos por ciento de la población). - Comparar puntuaciones individuales de distintos grupos y variables (ej. Pedro de la UPC tiene un 9 de nota y María de la UAM tiene un 8. Para saber quién ha rendido mejor, habría que ver en qué posición se encuentran con respecto a sus propios grupos). Distribuciones Una distribución empírica es la que se construye a partir de los datos observados (mediante histogramas para variables cuantitativas o gráficas de barras para variables categóricas). Distribuciones Una distribución teórica es la que no está generada a partir de unos datos, sino a partir de una función matemática. Son, por ejemplo: - La distribución binomial - La distribución T de Student - La distribución Chi-cuadrado - La distribución F de Fisher-Snedecor - La distribución normal Distribuciones La distribución binomial: - Representa cómo se distribuyen los distintos valores de una proporción si nos pusiéramos a extraer muestras de tamaño n de una población con parámetro . Nota: Conforme aumentamos el tamaño muestral, la distribución binomial se parece cada vez más a la distribución normal. Distribuciones La distribución T de Student: - Representa cómo se distribuyen los distintos valores de una media si nos pusiéramos a extraer muestras de tamaño n de una población con parámetros y . Nota: Conforme aumentamos el tamaño muestral, la distribución T de Student se parece cada vez más a la distribución normal. Distribuciones La distribución T de Student: - Representa cómo se distribuyen los distintos valores de una media si nos pusiéramos a extraer muestras de tamaño n de una población con parámetros y . - En las pruebas T, la distribución T de Student representa cómo se distribuyen las diferencias de medias estandarizadas obtenidas a partir muestras de tamaño n de una población con parámetros y . - En las pruebas T para una muestra y para muestras relacionadas (que son la misma), las T se distribuyen con grados de libertad. - En la prueba T para muestras independientes y la correlación de Pearson, las T se distribuyen con grados de libertad. Distribuciones La distribución chi-cuadrado: - Representa cómo se distribuyen los valores del estadístico obtenidos a partir de tablas de contingencia si nos pusiéramos a extraer muestras de una población. - Sólo puede tomar valores positivos y se distribuye con grados de libertad. - Según el número de filas y columnas que tenga la tabla, los que obtengamos se distribuirán de una forma u otra. - Se utiliza en la prueba de independencia y la prueba de McNemar. Distribuciones La distribución F de Fisher-Snedecor: - Representa cómo se distribuyen los valores del estadístico obtenidos a partir de análisis de varianza aplicados a las distintas muestras que podemos extraer de una población. - La forma de la distribución dependerá de: 1) el número de niveles de la variable categórica (i.e., nº de grupos) y 2) el número de sujetos. - En concreto, (donde J es el nº de grupos y N el nº de sujetos). df1 = 1 df1 = 2 df1 = 3 df2 Tema 2: Estimación de parámetros Pablo Fernández Cáncer Estimación El propósito de la estadística inferencial es extraer conclusiones sobre la población a partir de los datos de una muestra. Para conocer las características de una población, estimamos sus parámetros. Por ejemplo: Pregunta de investigación Para responderla, estimamos... ¿Cuál es la prevalencia de depresión en Francia? Una proporción ¿Cuánto puntúan los españoles en conciencia medioambiental? Una media ¿Son los italianos más extrovertidos que los alemanes? Una diferencia de medias ¿Mejoran sus notas los estudiantes que participan en el programa de apoyo? Una diferencia de medias ¿Hay relación entre el nivel educativo (bajo, medio, alto) y el tipo de puesto (directivo, administrativo, seguridad)? Una diferencia de proporciones () ¿Ha cambiado la intención de voto antes y después del debate? Una diferencia de proporciones () ¿Aumenta la agresividad con la edad? Una correlación de Pearson ¿Difieren las personas de distinta orientación sexual (asexual, homosexual, bisexual) en su discriminación percibida (cuantitativa)? ¿Se relaciona la orientación sexual con el nivel de discriminación percibido? La variabilidad entre las medias () Estimación La estimación puntual consiste, simplemente, en asignar al parámetro el valor del estadístico. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X, y por tanto concluyo que un 30% de las población votará al partido X. La estimación por intervalos consiste en asignar al parámetro un rango dentro del cual esperamos que se encuentre su valor verdadero con una cierta probabilidad. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X. Según el intervalo de confianza, tenemos una confianza del 95% de que el porcentaje de la población que votará al partido X se encontrará entre el 23% y el 37%. Estimación La estimación puntual consiste, simplemente, en asignar al parámetro el valor del estadístico. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X, y por tanto concluyo que un 30% de las población votará al partido X. La estimación por intervalos consiste en asignar al parámetro un rango dentro del cual esperamos que se encuentre su valor verdadero con una cierta probabilidad. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X. Según el intervalo de confianza, tenemos una confianza del 95% de que el porcentaje de la población que votará al partido X se encontrará entre el 23% y el 37%. Cálculo del intervalo 1. Imaginemos que las puntuaciones del BDI tienen media 20 y desviación típica 5 en una muestra de pacientes depresivos. Si tipificamos la variable y vemos que Pedro tiene una Z = 2, entonces… Sabemos que Pedro tiene una puntuación de 30 en el BDI Y=0 Y=5 Y = 10 Y = 15 Y = 20 Y = 25 Y = 30 Y = 35 Y = 40 Cálculo del intervalo 1. Imaginemos que las puntuaciones del BDI tienen media 20 y desviación típica 5 en una muestra de pacientes depresivos. Si tipificamos la variable y vemos que Pedro tiene una Z = 2, entonces… Sabemos que Pedro tiene una puntuación de 30 en el BDI Para saber esto, el cálculo es , es decir . ¿No os suena de algo? Y=0 Y=5 Y = 10 Y = 15 Y = 20 Y = 25 Y = 30 Y = 35 Y = 40 Cálculo del intervalo Para construir los intervalos también buscamos un valor en la escala original, pero en este caso no es la puntuación de Pedro, sino que se trata de los valores de la media que dejan a cada lado una probabilidad de 0.025 en la distribución muestral: Y=0 Y=5 Y = 10 Y = 15 Y = 20 Y = 25 Y = 30 Y = 35 Y = 40 Precisión de las estimaciones Cuantos más sujetos reclute, más precisas serán mis estimaciones en general. Esto se manifestará en: - Errores típicos más pequeños y por tanto distribuciones muestrales e intervalos de confianza más estrechos - Si estoy haciendo un contraste de hipótesis y mido la media 1 con más precisión y la media 2 con más precisión, entonces también capturaré la diferencia de medias con más precisión, y por tanto será más fácil detectar diferencias significativas (si es que existen). Es decir, aumentará la potencia del contraste y disminuirá la probabilidad de error tipo II. - Esta misma lógica se aplica tanto a una diferencia de medias, como una diferencia de proporciones, una correlación, etc. Tema 3: Contraste de hipótesis Pablo Fernández Cáncer Conceptos clave • • • • • • • • Hipótesis nula o : afirmación sobre el valor de un parámetro que guía el contraste de hipótesis Hipótesis alternativa o : negación de la hipótesis nula (inexacta) Estadístico de contraste: estadístico con distribución muestral conocida (p. ej., ) Zona de rechazo: rango de valores de la distribución improbables si fuese verdadera Zona de aceptación: rango de valores de la distribución compatibles con que sea verdadera Punto crítico: Valor/es de la distribución que separan la/s zona/s de aceptación y de rechazo. Nivel de significación o : Probabilidad asociada a la zona de rechazo. Nivel de confianza o : Probabilidad asociada a la zona de aceptación Conceptos clave • Error tipo I: Error que se comete cuando se decide rechazar una que en realidad es verdadera. La probabilidad de cometer este error es (nivel de riesgo o significación). • Error tipo II: Error que se comete cuando se decide mantener una que en realidad es falsa. La probabilidad de cometer este error es • Potencia: Es la probabilidad de rechazar correctamente la H0, y es • Nivel de confianza: Es la probabilidad de mantener correctamente la H0 y es • Nivel de significación: Es la probabilidad de cometer un error tipo I y se representa como . • Valor p: Llamamos así a la probabilidad asociada al estadístico de contraste obtenido en la muestra. También se llama nivel crítico. • Tamaño del efecto: Es la magnitud del efecto estudiado (la distancia entre las distribuciones definidas por y ). 19 Tipos de hipótesis En función de los objetivos de la investigación, hay tres tipos de contraste, según la dirección en la que esperamos encontrarnos el efecto de la . Ejemplo de pre-post: Hipótesis científica La ansiedad media ha disminuido La ansiedad media ha cambiado La ansiedad media ha aumentado 𝛂 Tipo de contraste Unilateral izquierdo Bilateral Unilateral derecho 𝛂/𝟐 𝛂/𝟐 𝛂 DECISIÓN SOBRE Naturaleza de Mantenerla Rechazarla Decisión correcta (nv. conf.) Error Tipo I (nv. crítico) Error Tipo II Decisión correcta (potencia) Verdadera Falsa Error y potencia estadística ¿Qué podemos hacer para tratar de aumentar la potencia estadística? • ¿Aumentar ? o Esto llevará a mayores probabilidades de cometer un error tipo I o A veces los investigadores han de decidir si es más importante cometer un error tipo I o un error tipo II • ¿Aumentar el tamaño de la muestra? o La única pega de esta estrategia es el mayor coste asociado a encontrar muestras de mayor tamaño, pero por lo demás no tienen ninguna otra pega • ¿Aumentar el tamaño del efecto? o Ya nos gustaría ser omnipotentes, pero el valor del parámetro es algo que viene dado y no es manipulable (de hecho, es lo que estamos tratando de estimar) Error y potencia estadística Potencia: Es la probabilidad de rechazar (correctamente) una hipótesis nula cuando la hipótesis verdadera es H1. Cuanto mayor es la potencia (), menor es la probabilidad de obtener un error tipo II () (o falso negativo). Los factores de los que depende la potencia (y el error tipo II): - El valor de . - El tamaño del error típico de la distribución muestral utilizada. - El tamaño del efecto El tamaño del efecto El tamaño del efecto es la diferencia entre el parámetro de (p. ej., ) y el de (p. ej., ). La probabilidad de (y, por tanto, de ), depende de la distancia entre el valor del parámetro según la y el valor del valor del parámetro según . Cuanto más alejados estén, menor será el solapamiento entre las curvas, y mayor será la potencia del contraste (más “fácil” será detectar dicho efecto como significativo). https://andrewlau.shinyapps.io/Power/ Tema 4: Asociación entre dos variables Pablo Fernández Cáncer Pablo Nájera Álvarez Conceptos importantes Covarianza: Estadístico que mide la magnitud y dirección de la relación entre dos variables. Su valor depende de la métrica de las variables, por lo que no es directamente interpretable. Puede ir de hasta , con el 0 indicando ausencia de relación. Coeficiente de correlación de Pearson: Estadístico tipificado que mide la magnitud y dirección de la relación entre dos variables cuantitativas, en una escala de -1 a 1, con el 0 indicando ausencia de relación. El propio coeficiente de correlación es en sí mismo una medida de tamaño del efecto. : Es el coeficiente de correlación al cuadrado. Indica el porcentaje de varianza que comparten dos variables. Diagrama de dispersión: Gráfica que representa la asociación entre dos variables. Son útiles para identificar la forma (ej. lineal o no lineal) de la relación. Coeficiente de correlación de Spearman: Estadístico no paramétrico que mide la magnitud y dirección de la relación entre dos variables ordinales/cuantitativas. Se utiliza cuando no se cumple el supuesto de normalidad. Conceptos importantes Tabla de contingencia: Tabla que indica cómo se distribuyen los sujetos a través de los distintos niveles de dos variables categóricas. Prueba de Independencia: Contraste que se utiliza para medir el grado de asociación entre dos variables categóricas. Residuos: Son el resultado de restar la tabla de frecuencias observada y la tabla de frecuencias esperada. Cuanto mayor sea la discrepancia entre las dos, mayores serán los residuos. Estadístico : Estadístico de contraste que resume los residuos en un solo número. Puede tomar valores de entre 0 y , con valores más alejados de 0 indicando unos mayores residuos (una mayor discrepancia y por tanto una relación más intensa). Sirve para contrastar el supuesto de independencia (ver si una asociación es estadísticamente significativa). Sigue una distribución chi-cuadrado con (donde I es el nº de filas y J el nº de columnas) grados de libertad: Medidas de asociación: Estadísticos que, una vez hemos averiguado si existe una relación estadísticamente significativa, nos indican la magnitud de dicha relación. Los más utilizados son el coeficiente de Contingencia y la V de Cramer. Conceptos importantes Residuos tipificados corregidos: Son los residuos transformados a puntuaciones Z. Permiten ver en qué casillas concretas hay una discrepancia importante entre frecuencias observadas y esperadas. Es decir, permiten ver si los residuos son significativamente distintos de 0 en la población, y así interpretar mejor la relación entre las variables categóricas. El cálculo del coeficiente de correlación Y ahora calculemos la covarianza i Notas Mates (X) Notas Física (Y) 1 8 9 2 6 5 3 7 8 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 𝑛 Covarianza 𝑆 𝑋𝑌 = 1 𝑋 𝑖 − 𝑋 )( 𝑌 𝑖 −𝑌 ) ∑ ( 𝑛−1 𝑖=1 Covarianza entre X e Y 𝑆 𝑋𝑌 = ( 8− 7 ) ( 9− 7 ) + ( 6 − 7 ) ( 5 − 7 ) + ( 7 − 7 ) ( 8 − 7 ) + ( 9 − 7 )( 7 − 7 ) +( 5− 7)(6 − 7) 𝑆 𝑋𝑌 = 4 ( 1 ) ( 2 ) + ( − 1 ) ( − 2 ) + ( 0 ) ( 1 ) + ( 2 )( 0 ) +( − 2)(− 1) 4 = 2 +2+0+0 +2 6 = = 1.5 4 4 La covarianza indica si las variables tienden a cambiar (o variar) en la misma dirección (relación positiva), la opuesta (relación negativa o inversa), o si varían de forma independiente (relación nula). El cálculo del coeficiente de correlación El “problema” que tiene la covarianza es que no es interpretable. Por ejemplo, antes hemos obtenido una covarianza de 1,5. ¿Eso es mucho o poco? Observad lo que ocurriría si cambiáramos la métrica de las variables: i Notas Mates (X) Notas Física (Y) 1 8 9 𝑆 i Notas Mates (X) Notas Física (Y) 1 80 90 𝑆 2 6 5 3 7 8 𝑋𝑌 2 60 50 𝑋𝑌 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 5 50 60 Media 70 70 DT 15.8 15.8 =1.5 3 70 80 4 90 70 =150 La covarianza es mayor en el segundo caso, pero la relación no es más intensa. El cálculo del coeficiente de correlación La covarianza es distinta en cada caso, aunque la relación entre las variables sea la misma, porque es dependiente de la métrica. Para saber si la relación entre dos variables es alta o baja, debemos usar la correlación. La correlación es la covarianza estandarizada (o tipificada). Es decir, la covarianza dividida entre las desviaciones típicas de las dos variables (X e Y). Al hacer esto, obtengo un indicador de la correlación entre dos variables que va desde hasta , independientemente de la métrica de las variables. El cálculo del coeficiente de correlación i Notas Mates (X) Notas Física (Y) 1 8 9 2 6 5 𝑟 𝑋𝑌 = 3 7 8 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 1.5 =𝟎. 𝟔 1.58 × 1.58 La correlación también nos indica si las desviaciones (o “variaciones”) en una variable coinciden más o menos con las desviaciones (o “variaciones”) en la otra. Es decir, nos indica cuanta varianza tienen en común. Esta “varianza común” se puede obtener a modo de porcentaje elevando la correlación al cuadrado. Ejemplos de correlaciones 𝑟 𝑋𝑌 =1 𝑟 𝑋𝑌 =0,69 𝑟 𝑋𝑌 =0,01 𝑟 𝑋𝑌 =−0,72 𝑟 𝑋𝑌 =− 1 La prueba de independencia La prueba X2 de independencia permite evaluar la existencia de relación (o de no independencia) entre 2 variables categóricas. También se conoce como prueba de bondad de ajuste o prueba X2 de Pearson Las variables pueden tener 2 o más categorías Para evaluar la magnitud de la relación (tamaño del efecto) usaremos medidas de asociación Para poder interpretar cómo es la relación, usaremos residuos estandarizados corregidos El estadístico Cantidad de grasa Baja Media Alta Sí 12 16 32 60 No 88 84 68 240 Total 100 100 100 300 Enf. cardiovascular Frecuencias observadas 𝒏 𝒊𝒋 Total Cantidad de grasa Enf. cardiovascular Frecuencias esperadas 𝒎𝒊𝒋 Baja Media Alta Total Alta Total Sí No Total Cantidad de grasa Enf. cardiovascular Residuos 𝒏𝒊𝒋 − 𝒎𝒊𝒋 Sí No Total Baja Media El estadístico mide la magnitud de la relación 1. Cuanto mayor sea la suma de todos los residuos, mayor la relación (mayor ) 2. Da igual la dirección de la resta, nos interesa la discrepancia 3. Hay que normalizar los residuos por el tamaño de la muestra (no es igual de importante un residuo de 5 en una muestra de 20 personas que en una de 1000) 2 𝐼 𝑋 =∑ 𝑖=1 𝐽 ∑ 𝑗=1 2 ( 𝑛𝑖𝑗 − 𝑚𝑖𝑗 ) 𝑚 𝑖𝑗 El estadístico El estadístico sólo puede tomar valores positivos (de 0 a ) Sigue una distribución chi-cuadrado: Medidas de asociación • Coeficiente de contingencia: • V de Cramer: , donde es el número menor entre filas o columnas Ambas medidas oscilan entre 0 y un máximo próximo a 1 Puntos de corte orientativos: • Relación débil: menor a 0,20 • Relación moderada: entre 0,20 y 0,30 • Relación fuerte: mayor a 0,30 Residuos tipificados corregidos Los residuos tipificados corregidos son una transformación de los residuos a puntuaciones Z para conocer su distribución y poder juzgar si son distintos de cero en la población. Cantidad de grasa Enf. cardiovascular 𝑍𝑅 𝑖𝑗 Baja Media Sí No Total 1.22 Alta Total Tema 5: Diferencias entre dos grupos o dos variables Pablo Fernández Cáncer Pablo Nájera Álvarez Introducción En este tema vamos a ver los siguientes contrastes estadísticos: • Prueba T para muestras relacionadas: Evalúa la existencia (o no) de diferencias entre dos variables cuantitativas. • Prueba T para muestras independientes: Evalúa la existencia (o no) de diferencias entre dos grupos. • Prueba de McNemar: Evalúa la existencia (o no) de diferencias entre dos variables dicotómicas Cuando hablamos de comparar variables, lo que hacemos es evaluar si sus medias son diferentes. Para ello, es imprescindible que las dos variables estén en la misma métrica. Prueba T para muestras relacionadas La prueba T para muestras relacionadas permite comparar las medias de dos variables cuantitativas medidas en la misma métrica Normalmente, se emplean en el siguiente tipo de estudios: • Estudios transversales: dos variables distintas medidas en una muestra (p. ej., capacidad léxica y razonamiento visoespacial de los estudiantes de psicología) • Estudios longitudinales: una variable medida en una muestra en dos momentos distintos (p. ej., nivel de ansiedad antes y después del tratamiento) • Muestras emparejadas o díadas: una variable medida en dos muestras de personas emparejadas (p. ej., extraversión en gemelos, satisfacción marital de mujer y marido) En todos estos ejemplos, el resultado es contar con dos variables cuantitativas provenientes de muestras relacionadas o muestras repetidas Esta prueba se puede complementar con la correlación de Pearson si también se quiere estudiar la relación entre las dos variables continuas Prueba T para muestras relacionadas Estudios transversales Estudios longitudinales Muestras emparejadas ID Léxico Visoesp. ID Pre Post Par Extr. 1 Extr. 2 1 95 84 1 25 14 1 105 108 2 92 72 2 32 22 2 97 99 3 105 98 3 35 28 3 108 113 4 87 119 4 27 19 4 94 100 5 119 124 5 29 24 5 114 108 La prueba T para muestras relacionadas El estadístico de contraste es equivalente al de la prueba T para una muestra Una muestra Muestras relacionadas 𝑇= 𝑌 − 𝜇𝑌 𝑆𝑌 / √ 𝑛 𝑡𝑛 − 1 𝐷 =𝑌 1 − 𝑌 2 𝐷 =𝑌 1 − 𝑌 2 𝑇= 𝐷 − 𝜇𝐷 𝑆 𝐷 / √𝑛 𝑡 𝑛 −1 𝑌1 −𝑌 2 𝐷 𝑇= 𝑡 𝑛− 1 𝑇 = 𝑡 𝑛− 1 𝑆𝐷/ √ 𝑛 𝑆𝐷 / √ 𝑛 Como estamos comparando si y son diferentes, el valor de comparación de será 0 y, por tanto, será 0 La prueba T para muestras relacionadas Cálculo del intervalo de confianza El intervalo de confianza se calcula de la misma forma que para la media Una muestra Muestras relacionadas 𝐼𝐶 1 − 𝛼 =𝑌 ± 𝐸 𝑚𝑎𝑥 =𝑌 ±|𝑡 𝑛 − 1 ; α /2| 𝑆𝑌 / √ 𝑛 𝐷 =𝑌 1 − 𝑌 2 𝐷 =𝑌 1 − 𝑌 2 𝐼𝐶 1 − 𝛼 = 𝐷 ± 𝐸 𝑚𝑎𝑥 = 𝐷 ±|𝑡 𝑛 − 1 ; α /2| 𝑆 𝐷 / √ 𝑛 Tamaño del efecto La prueba T sirve para evaluar si existe una diferencia entre medias, pero no nos dice nada acerca de la magnitud de esa diferencia Recordatorio: el tamaño del efecto (a diferencia del contraste de hipótesis) no depende del tamaño de la muestra El tamaño del efecto más empleado para comparaciones de medias es la d de Cohen Una muestra 𝑌 − 𝜇𝑌 𝑑= 𝑆𝑌 Muestras relacionadas 𝑑= 𝐷 − 𝜇𝐷 𝑆𝐷 La d de Cohen es una diferencia de medias tipificada: número de desviaciones típicas que una media se diferencia de otra Puntos de corte orientativos: leve < 0,5 ≤ moderado < 0,8 ≤ grande Normalidad y prueba de Wilcoxon La prueba T es la mejor opción para comparar medias de variables cuando las distribuciones poblacionales son normales. Pero en psicología, no es infrecuente verse en la necesidad de trabajar con poblaciones que no son normales. Con tamaños muestrales grandes, la ausencia de normalidad no es importante. Pero, si además de tener que trabajar con poblaciones que no son normales, hay que hacerlo con muestras pequeñas (n<30), la prueba T pierde precisión. Cuando trabajemos con muestras pequeñas, primero tendremos que evaluar el supuesto de normalidad utilizando la prueba de Shapiro-Wilk (en Jamovi). Si , significa que nuestra distribución es significativamente distinta de la normal (el supuesto NO se cumple). Normalidad y prueba de Wilcoxon Si la distribución de la variable no es normal y además el tamaño muestral es pequeño (n<30), usaremos la prueba de Wilcoxon, que es una alternativa no paramétrica a la prueba T. La interpretación es igual a la de la prueba T. Obtendremos un estadístico y un valor p asociado a él. Si , rechazaremos la . Prueba T para muestras independientes La prueba T para muestras independientes permite comparar la media de una variable en dos grupos (muestras) distintos Al contrario que en el caso de muestras relacionadas, los dos grupos no están emparejados, sino que son dos poblaciones diferentes Variables implicadas: • Una variable dicotómica que forma grupos (variable independiente) • Una variable continua (variable dependiente) El objetivo es comparar dos medias poblacionales en un diseño inter-sujetos La diferencia entre medias En la prueba T para muestras relacionadas podíamos calcular la diferencia entre las variables (porque teníamos valores emparejados) En la prueba T para muestras independientes no podemos calcular la diferencia entre las variables; sólo podemos calcular la diferencia entre las medias Queremos evaluar si es más efectivo un liderazgo transformacional que uno transaccional. Para ello, evaluamos el rendimiento (con una escala de 1-10) de distintos trabajadores, cada uno de los cuales tiene un jefe que aplica un liderazgo diferente: Liderazgo n Rendimiento Media Transformacional 6 6, 8, 5, 9, 7, 10 7,5 Transaccional 10 7, 5, 6, 4, 9, 3, 6, 2, 7, 4 5,3 ¿Son las medias lo bastante diferentes para pensar que proceden de poblaciones con diferente media? Tamaño del efecto El tamaño del efecto más común para la prueba T para muestras independientes también es la d de Cohen Si conocemos el valor del estadístico T, hay una simplifcación Puntos de corte orientativos: leve < 0,5 ≤ moderado < 0,8 ≤ grande Homogeneidad de varianzas y Prueba T de Welch Para saber si se cumple o no el supuesto de homogeneidad de varianzas, utilizaremos la prueba de Levene. Si , significa que las varianzas son significativamente distintas (el supuesto NO se cumple). En este ejemplo, , por lo que sí se cumple el supuesto. Si no se cumpliera usaríamos la prueba T de Welch, en lugar de la prueba T de Student Se interpreta igual que la Prueba T Normalidad y Prueba de Mann-Whitney Para saber si se cumple o no el supuesto de normalidad, utilizaremos la prueba de Shapiro-Wilk. En este caso sí se cumple el supuesto de normalidad Sólo si la muestra es pequeña, y además no se cumple el supuesto de normalidad, usaríamos la prueba de Mann-Whitney (cuyo estadístico se llama U) para realizar el contraste de medias. Se interpreta igual que la Prueba T. Prueba de McNemar Recordatorio: la prueba X2 de independencia permite evaluar la existencia de relación (o de no independencia) entre 2 variables categóricas La prueba de McNemar permite comparar proporciones de variables dicotómicas Es similar a la prueba T para muestras relacionadas en el sentido de que contamos con dos variables dicotómicas medidas en una muestra relacionada: • Estudios transversales: dos variables distintas medidas en una muestra (p. ej., valoración positiva o negativa de dos productos diferentes) • Estudios longitudinales: una variable medida en una muestra en dos momentos distintos (p. ej., opinión sobre un candidato político antes y después de un mitin) • Muestras emparejadas: una variable medida en dos muestras de personas emparejadas (p. ej., opinión sobre un candidato político de mujer y marido) Prueba de McNemar Estudios transversales Muestras emparejadas Producto B Producto A Opi. marido Positiva Negativa Total Positiva 60 20 80 Negativa 30 90 Total 90 110 Opi. mujer A favor En contra A favor 170 20 190 120 En contra 70 40 110 200 Total 240 60 300 Estudios longitudinales Opi. después Opi. antes A favor En contra Total A favor 49 21 70 En contra 63 117 180 Total 112 138 250 Total Homogeneidad marginal y simetría En cualquiera de las tres situaciones, la prueba de McNemar permite comparar las proporciones de ambas variables dicotómicas Como se trata de comparar proporciones marginales, la prueba de McNemar también recibe el nombre de prueba de homogeneidad marginal Producto B Positiva Negativa Total Positiva 0,30 0,10 0,40 Negativa 0,15 0,45 0,60 Total 0,45 0,55 1 Producto A ¿Difiere la proporción de valoraciones positivas del producto B que la del producto A? Homogeneidad marginal y simetría Homogeneidad marginal y simetría son equivalentes, tanto matemáticamente como a nivel interpretativo Opi. después Opi. después A favor En contra Total Opi. antes A favor 0,196 0,084 0,280 En contra 0,252 0,468 0,720 Total 0,448 0,552 1 Opi. antes A favor En contra Total A favor 0,196 0,084 0,280 En contra 0,252 0,468 0,720 Total 0,448 0,552 1 Si antes del mitin había un 28% de personas a favor del candidato, y después del mitin hay un 44,8% de personas a favor, es porque el porcentaje de personas que ha pasado de estar en contra a estar a favor (25,2%) es mayor que el de personas que ha pasado de estar a favor a estar en contra (8,4%). Conceptos importantes Prueba T para muestras relacionadas: Contraste que se utiliza para comparar dos variables cuantitativas en la misma métrica (en diseños transversales, pre-post, o díadas). Es equivalente a calcular una variable de diferencia y aplicarle una prueba T para una muestra. Requiere cumplir el supuesto de normalidad. Se basa en el estadístico . Prueba T para muestras independientes: Contraste que se utiliza para comparar dos grupos en una variable cuantitativa (en diseños inter-sujeto). Esto se consigue comparando las medias de los dos grupos en dicha variable. Requiere cumplir los supuestos de normalidad y homocedasticidad. Se basa en el estadístico . d de Cohen: Es una diferencia de medias tipificada que se usa como medida de tamaño del efecto en las distintas pruebas T (aunque se cacula de forma distinta en cada una de ellas). Prueba de McNemar: Contraste que se utiliza para comparar dos proporciones en muestras emparejadas (diseños transversales, pre-post, o díadas). Requiere dos variables dicotómicas y se basa en el estadístico . También se le conoce como prueba de homogeneidad marginal o simetría. Conceptos importantes Prueba de normalidad Shapiro-Wilk: Contraste que se utiliza para saber si la distribución de una variable es significativamente distinta de la distribución normal o no. Si , se concluye que la variable sigue una distribución que no es normal. Prueba de Wilcoxon: Contraste alternativo a la prueba T de Student para muestras emparejadas que se utiliza cuando la variable de diferencia no sigue una distribución normal. Prueba de Levene: Contraste que se utiliza para saber si dos variables tienen o no la misma varianza. Si , se rechaza la , y se concluye que las variables tienen distinta varianza. Prueba T de Welch: Contraste alternativo a la prueba T de Student para muestras independientes que se utiliza cuando las varianzas de los dos grupos son distintas (cuando Levene da ) Prueba de Mann Whitney: Contraste alternativo a la prueba T de Student para muestras independientes que se utiliza cuando la distribución de las variables no es normal. * Recordad que con tamaños muestrales grandes, tanto el supuesto de normalidad como el de homogeneidad de varianzas pierden importancia. Tema 6. Diferencias entre más de dos grupos o variables Pablo Fernández Cáncer Pablo Nájera Álvarez Conceptos importantes Factor completamente aleatorizado (CA): Factor que divide la muestra en grupos independientes, de forma que cada grupo de sujetos pasa por un sólo nivel del factor. Son los mismos factores que se utilizan en la prueba T para muestras independientes. Factor de medidas repetidas (MR): Factor por cuyos niveles pasan todos los sujetos, igual que en la prueba T para muestras relacionadas. Variable dependiente (VD): Es la variable cuantitativa que nos interesa estudiar. Variabilidad intergrupos: Variabilidad que hay entre las medias de los grupos. Recoge el efeto del factor sobre la VD. De aquí deriva la media cuadrática intergrupos, que utilizamos para calcular la F. Variabilidad intragrupos: Variabilidad que hay dentro de los grupos. Es la variabilidad que no se debe al efecto del factor, sino a otras cosas (otras variables, diferencias individuales, etc.). Se considera ruido o error. De aquí deriva la media cuadrática error, que también se utiliza para calcular la F. Conceptos importantes Estadístico de contraste F: Es el estadístico de contraste que se utiliza en los análisis de varianza (ANOVA y prueba de Levene). Se calcula como la media cuadrática intergrupo dividida entre la media cuadrática intragrupo. Se interpreta como un indicador de la variabilidad que hay entre las medias de los grupos (refleja el grado de parecido existente entre las medias). No puede obtener valores negativos. Supuesto de esfericidad: Supuesto que deben cumplir los factores de medidas repetidas del ANOVA. El supuesto es que las varianzas en las distintas medidas repetidas son iguales, y que también lo son las covarianzas entre ellas. Eta cuadrado y omega cuadrado: Son las medidas de tamaño del efecto que se usan en el ANOVA. Se interpretan como el porcentaje de varianza que el factor explica de la VD. Comparaciones de tendencia: Contrastes cuyo propósito es examinar la forma de la relación entre el factor (sólo si es ordinal) y la VD. Prueba de Tukey: Prueba de comparación de medias similar a la prueba T pero que controla la tasa de error tipo I para que no se infle a causa de las múltiples comparaciones. Conceptos importantes Efecto principal: Efecto de un factor sobre la VD. Efecto simple: Diferencia que hay entre los niveles de un factor condicionado a un solo nivel del otro factor. Efecto de interacción: Hay una interacción cuando, a nivel poblacional, los efectos simples de un factor no son iguales en todos los niveles del otro factor. Es decir, si el efecto de un factor en la VD es igual para todos los niveles del otro factor, entonces no hay interacción. Si el efecto de un factor sobre la VD difiere entre alguno de los niveles del otro factor, entonces sí hay interacción. Prueba de Kruskal-Wallis: Alternativa no paramétrica al ANOVA A-CA. Prueba de Friedman: Alternativa no paramétrica al ANOVA A-MR. La lógica del ANOVA Variabilidad intergrupos: • Es la que nos interesa, puesto que recoge el efecto del factor sobre la VD • Es la que nos permite responder a la hipótesis del ANOVA: ¿son las medias iguales? Variabilidad intragrupos: • Es variabilidad que no se debe al efecto del factor, sino a otros factores (variables extrañas, diferencias individuales…) Nivel de estrés • En este sentido, se considera ruido o error Homocedasticidad: al igual que la prueba T para muestras independientes, el ANOVA A-CA asume que las varianzas poblacionales son iguales para todos los grupos Bajo Medio Alto 3,2 4,8 3,9 3,7 4,4 5,3 4,9 6,7 6,5 6,6 3,6 3,2 3,2 2,9 2,1 El estadístico F Si , es probable que las medias poblacionales de los grupos sean parecidas A medida que sea mayor que , mayor probabilidad habrá de que las medias poblacionales de los grupos no sean parecidas ¿Cómo cuantificamos el tamaño relativo de frente a ? El estadístico F refleja el grado de parecido existente entre las medias poblacionales • Medias similares: • Medias distintas: De forma similar al estadístico X2, el estadístico F no puede obtener valores negativos El estadístico F (Supuestos) Si las poblaciones siguen una distribución normal y sus varianzas son iguales (homocedasticidad)… … entonces el estadístico F sigue una distribución F de Fisher-Snedecor: = número de grupos y = tamaño total de la muestra df1 = 1 df1 = 2 df1 = 3 df2 Efectos principales, simples y de interacción No hay interacción • No hay diferencias estadísticamente significativas entre los efectos simples • Las líneas del gráfico son (±) paralelas • Sí se interpretan los efectos principales (contienen toda la información) Sí hay interacción • Sí hay diferencias estadísticamente significativas entre algún efecto simple • Las líneas del gráfico no son paralelas • No se interpretan los efectos principales (contienen información sesgada) El ANOVA AB-CA Nivel activación Dificultad tarea Bajo Medio Alto Medias Fácil 13 (8,5) 15 (5,0) 8 (6,5) 12 Difícil Medias 7 (4,0) 10 13 (6,0) 14 10 (7,5) 9 10 11 La tabla del ANOVA AB-CA Fuente de variación (efecto) Suma de cuadrados (SC) Grados de libertad (gl) Media cuadrática (MC) Estadístico F Valor p Intergrupos (A) SCA = MCA(J – 1) J–1 MCA = SCA / (J – 1) FA = MCA/MCE P(Fgl1; gl2 ≥ FA) Intergrupos (B) SCB = MCB(K – 1) K–1 MCB = SCB / (K – 1) FB = MCB/MCE P(Fgl1; gl2 ≥ FB) Intergrupos (AB) SCAB = MCAB(J – 1)(K – 1) (J – 1)(K – 1) MCAB = SCAB / (J – 1)(K – 1) FAB = MCAB/MCE P(Fgl1; gl2 ≥ FAB) Intragrupos o error (E) SCE = MCE(N – J) N – JK MCE = SCE / (N – J) - - SCT = SCA+SCB+SCAB+SC N–1 - - - Total E Tamaño del efecto y comparaciones múltiples El tamaño del efecto se calcula de forma equivalente al ANOVA A-CA, solo que ahora tendremos tres efectos distintos (p. ej., , y ) Por otro lado, las tres hipótesis del ANOVA AB-CA sólo permiten identificar si existe alguna diferencia, pero no entre qué niveles • Efectos principales: equivalentes al ANOVA A-CA (Comparaciones de tendencia, prueba de Tukey) • Efecto de interacción: comparar efectos simples entre sí (diferencia entre diferencias) ¿ = ? ¿ = ? ¿ = ?