Tema 4 ANOVA Unifactorial PDF
Document Details
Uploaded by Hohoho
Antonio
Tags
Summary
This document discusses one-way analysis of variance (ANOVA). It covers introductory concepts, comparisons, and considerations for using ANOVA in a research setting. Relevant statistical methods and formulas are also shown
Full Transcript
Análisis de la Varianza Unifactorial Introducción Es una técnica paramétrica El Análisis de la Varianza (ANOVA) de un factor sirve para comparar la media de varios grupos en una variable cuantitativa. Es una generalización de la prueba t para dos muestras independientes. H0: µH = µM H1: µH ≠ µM H...
Análisis de la Varianza Unifactorial Introducción Es una técnica paramétrica El Análisis de la Varianza (ANOVA) de un factor sirve para comparar la media de varios grupos en una variable cuantitativa. Es una generalización de la prueba t para dos muestras independientes. H0: µH = µM H1: µH ≠ µM H0: µH = µM = µS H1: µH ≠ µM ≠ µS - Variable Dependiente (VD): Variable cuantitativa (de intervalo o razón) en la que comparamos los grupos. - Variable Independiente (VI): Variable (nominal u ordinal) que define los grupos que vamos a comparar. Análisis de la Varianza Unifactorial Introducción H0: Las medias poblacionales de la VD en cada nivel de la VI son iguales H1: Las medias poblacionales de la VD en cada nivel de la VI no son iguales ¿Por qué no usamos varias pruebas t? Nº DE GRUPOS COMPARACIONES Prob. de cometer Error Tipo I 2 3 4 5 6 7 1 3 6 10 15 21 0.05 0.143 0.265 0.401 0.537 0.659 • Conforme el número de grupos aumenta, el número de pruebas t necesarias para comparar cada posible par de medias aumenta en gran medida. Eso provoca una acumulación de probabilidades de cometer ERROR TIPO I, que rápidamente alcanza niveles insostenibles. ¿Cuándo usamos el ANOVA entonces? ● El ANOVA (Análisis de Varianza) se usa en un contraste de hipótesis con una variable independiente nominal con tres o más niveles y una variable dependiente de escala. ● De forma similar al estadístico t, el estadístico F se calcula dividiendo una medida de variabilidad entre los grupos (varianza entre-grupos) por una medida de variabilidad dentro de grupos (varianza intra-grupos). ● La varianza entre grupos es una estimación de la varianza de la población que se calcula a partir de las diferencias entre medias. ● La varianza intra-grupos es una estimación de la varianza de la población que se calcula a partir de las diferencias entre cada una de las tres (o más) distribuciones de muestras. Análisis de la Varianza Unifactorial Introducción La H0 se pone a prueba mediante el estadístico F - El numerador es un estimador de la varianza poblacional basada en la variabilidad entre las medias de cada grupo. - El denominador es un estimador de la varianza poblacional pero basada en la variabilidad dentro de cada grupo. Análisis de la Varianza Unifactorial La F es el cociente entre: la variabilidad atribuible a las diferencias entre las medias (variabilidad Inter-grupos) y la atribuible a las diferencias dentro de cada grupo (variabilidad Intra-grupos). 𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽 𝒆𝒆𝒆𝒆𝒆𝒆𝒓𝒓𝒓𝒓𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈 𝐅𝐅 = 𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒔𝒔 Análisis de la Varianza Unifactorial Introducción No rechazar H0 implica Las medias muestrales son parecidas existiendo entre ellas diferencias atribuibles solo al azar. En ese caso la estimación del numerador reflejará el mismo grado de variación que la estimación del denominador y el cociente tomará un valor aproximado de 1. Análisis de la Varianza Unifactorial Si las medias muestrales difieren, el numerador reflejará mayor grado de variación que el denominador y F tenderá a aumentar. 1≤F≤∞ Valores próximos a 1: Medias iguales Valores próximos a ∞: Medias distintas Punto de corte significación Análisis de la Varianza Unifactorial El estadístico F se basa en el cumplimiento de supuestos, entre ellos: 1. Normalidad. La VD se distribuye normalmente en los grupos definidos por la VI. Si las muestras son grandes el ANOVA es robusto frente a su incumplimiento. 2. Homocedasticidad u homogeneidad de las varianzas. Los grupos poseen la misma varianza error. Con grupos de distinto tamaño hay que vigilar su cumplimiento ( Levene). Con muestras grandes (N > 30) el incumplimiento de los supuestos no es tan grave 3. Independencia de las observaciones. Las observaciones de distintos participantes o condiciones no deben estar relacionadas (DurbinWatson). Se corrige con aleatorización a los grupos pero afecta a diseños intrasujeto (medidas repetidas) Análisis de la Varianza Unifactorial Comparaciones a Priori y a Posteriori El estadístico F únicamente nos permite contrastar la hipótesis de que las j medias son iguales. Al rechazar la H0 sabemos que las medias comparadas no son iguales, pero no sabemos dónde se encuentran las diferencias. Para localizar las diferencias comparaciones múltiples a priori y/o a posteriori (post hoc). A priori: Se realizan antes de obtener el valor de la F y su significación Están guiadas por las hipótesis científicas del estudio Análisis de la Varianza Unifactorial Comparaciones a Posteriori Cuando las varianzas son iguales Cuando se contrasta un gran número de parejas de medias, la prueba de la diferencia honestamente significativa de Tukey. Para un número reducido de pares, Bonferroni. Cuando las varianzas no son iguales Prueba de comparaciones por parejas de GamesHowell. Análisis de la Varianza Unifactorial Comparaciones a Priori Las comparaciones a priori pueden ser comparaciones de tendencia y también permiten realizar comparaciones específicas entre pares de medias. - Polinómico. Permite realizar comparaciones de tendencia. Si el ANOVA resulta significativo se puede rechazar la hipótesis de independencia y aceptar que la VI y la VD están relacionadas. En este caso, si la VI es cuantitativa esta opción permite estudiar que tipo relación (lineal, cuadrática, cúbica,…) existe entre la VD y la VI. Los seis pasos para un ANOVA entre grupos Paso 1 Identificar las poblaciones, las distribuciones de comparación y los supuestos Población 1: Seres humanos en sociedades recolectoras. Población 2: Seres humanos en sociedades agricultoras. Población 3: Seres humanos en sociedades que utilizan recursos naturales. Población 4: Seres humanos en sociedades industriales. La distribución de comparación es una distribución F y el contraste de hipótesis un ANOVA entre-grupos. Supuesto 1: VD es una variable de escala. Supuesto 2: El muestreo no ha sido aleatorio, tenemos que tener cuidado a la hora de generalizar los resultados. Supuesto 3: Las muestras vienen de poblaciones con homocedasticidad, es decir de poblaciones con varianzas iguales (estadístico Levene). Los seis pasos para un ANOVA entre grupos Paso 2 Formular la hipótesis nula y la hipótesis de investigación Hipótesis nula: las personas que provienen de las sociedades de los cuatro tipos examinados demuestran mismas conductas de justicia. Hipótesis de investigación: las personas que provienen de las sociedades de los cuatro tipos examinados demuestran diferentes conductas de justicia. H0: μ1 = μ2= μ3= μ4 H1: μ1 ≠ μ2≠ μ3 ≠ μ4 Los seis pasos para un ANOVA entre grupos Paso 3 Determinar las características de la distribución de comparación Los seis pasos para un ANOVA entre grupos Paso 4 Determinar los valores críticos (valores p también llamados alpha Los seis pasos para un ANOVA entre grupos Paso 5 Calcular el estadístico de la prueba Fuentes de variabilidad y cálculos para el ANOVA Fuente SS df MS F Entre SSentre dfentre MSentre F Intra SSintra dfintra MSintra Total SStotal dftotal Los seis pasos para un ANOVA entre grupos Paso 6 Tomar una decisión F(3,9)=8.27, p<0.05 Calcular el tamaño de efecto R2 = SSentre SStotal R2 es la proporción de la varianza en la variable dependiente que se puede explicar por la variable independiente Comparaciones a priori y pruebas post-hoc Recuerda: El ANOVA nos dice si hay diferencias entre por lo menos dos medias de grupos en el estudio pero no nos dice qué medias son diferentes Una comparación a priori es una prueba que se hace cuando existen múltiples grupos pero solo algunas comparaciones entre ellos (establecidas antes de la recogida de datos) son de interés Una prueba post-hoc es un procedimiento estadístico que se realiza después de rechazar la hipótesis nula en un ANOVA. Nos permite hacer múltiples comparaciones entre varios grupos Prueba Tukey HSD Muestras iguales Muestras no iguales Prueba de Bonferroni La prueba de Bonferroni es una prueba post-hoc que se realiza con un valor crítico más estricto para cada comparación entre medias Análisis de la Varianza Unifactorial Comparaciones a Priori Una posibilidad interesante en las comparaciones a priori (además de comparar pares de medias) es realizar análisis de tendencia. - Polinómico. Permite realizar comparaciones de tendencia. Si el ANOVA resulta significativo se puede rechazar la hipótesis de independencia y aceptar que la VI y la VD están relacionadas. En este caso, si la VI es cuantitativa esta opción permite estudiar que tipo relación (lineal, cuadrática, cúbica,…) existe entre la VD y la VI. Las opciones del procedimiento ANOVA de un factor permiten: seleccionar algunos estadísticos descriptivos básicos obtener la prueba Levene para contrastar la hipótesis de homogeneidad de varianzas obtener una prueba de Normalidad decidir qué tratamiento se desea dar a los casos de valores perdidos. ANOVA DE UN FACTOR Una tabla que muestra el estadístico de Levene, para contrastar la hipótesis de que las varianzas poblacionales son iguales. H0: El supuesto se cumple H1: El supuesto no se cumple Como la significación es > 0,05 entonces no rechazamos la hipótesis nula y concluimos que no hay evidencia del incumplimiento del supuesto de Homocedasticidad. ANOVA DE UN FACTOR Una tabla con el resumen del ANOVA H0: Las medias son iguales H1: Al menos dos de las medias son diferentes Como la significación < 0,05, decidimos rechazar la hipótesis nula y concluimos que en las poblaciones definidas por la variable edad al menos dos de las mismas difieren en CV. ANOVA DE UN FACTOR Diseño factorial El diseño factorial, como estructura de investigación, es la combinación de dos o más diseños simples (o unifactoriales); es decir, el diseño factorial requiere la manipulación simultánea de dos o más variables independientes (llamados factores), en un mismo experimento. Cantidad de niveles por factor 2x2, 2x2x2, 2x3, 2x3x4, etc. EFECTOS FACTORIALES ESTIMABLES 1. Efectos principales 2. Efectos secundarios