Conceptos clave.pptx
Document Details
Uploaded by SpiritualJoy
Comillas
Full Transcript
Tema 1: Introducción a la estadística inferencial Pablo Fernández Cáncer Tipos de variable • Categóricas • Nominales (dicotómicas o politómicas) • Ordinales • Cuantitativas • Continuas (pueden tener decimales) • Discretas (no tienen decimales) Media, varianza y desviación típica • Media: • Res...
Tema 1: Introducción a la estadística inferencial Pablo Fernández Cáncer Tipos de variable • Categóricas • Nominales (dicotómicas o politómicas) • Ordinales • Cuantitativas • Continuas (pueden tener decimales) • Discretas (no tienen decimales) Media, varianza y desviación típica • Media: • Resumen de las puntuaciones de una variable. Es el valor que minimiza el error que cometo cuando resumo todas las puntuaciones en un solo número. • Error: • El error indica cuánto me desvío de un valor determinado. Este valor puede ser una media, una predicción, etc. • Varianza: • Es el grado de dispersion de las puntuaciones (o de los errores). Se puede interpreter como una cuantificación del error que cometemos cuando caracterizamos a la muestra con un único valor (la media). Es decir, la varianza resume los errores en un solo número. Media, varianza y desviación típica • Desviación típica: • Nos informa de lo mismo que la varianza, pero está en distinta métrica. • Si la variable se distribuye de forma normal, nos permiten saber en torno a qué valores se acumulan la mayoría de los sujetos Inferencia estadística La inferencia es un razonamiento que procede de lo particular a lo general: intenta extraer conclusiones de tipo general a partir de unos pocos datos particulares. Al hablar de conclusiones de tipo general nos estamos refiriendo a conclusions sobre una población o alguno de sus parámetros, y al hablar de datos particulares, hablamos de una muestra o sus estadísticos. Inferencia estadística Población: - Conjunto de elementos (personas) que poseen una o más características en común. Muestra: - Subconjunto de elementos de una población. Puntuaciones típicas • Distribuciones Una distribución empírica es la que se construye a partir de los datos observados (mediante histogramas para variables cuantitativas o gráficas de barras para variables categóricas). Distribuciones Una distribución teórica es la que no está generada a partir de unos datos, sino a partir de una función matemática. Son, por ejemplo: - La distribución binomial - La distribución T de Student - La distribución Chi-cuadrado - La distribución F de Fisher-Snedecor - La distribución normal Distribuciones Nota: Conforme aumentamos el tamaño muestral, la distribución binomial se parece cada vez más a la distribución normal. Distribuciones Nota: Conforme aumentamos el tamaño muestral, la distribución T de Student se parece cada vez más a la distribución normal. Distribuciones Distribuciones Distribuciones df1 = 1 df1 = 2 df1 = 3 df2 Tema 2: Estimación de parámetros Pablo Fernández Cáncer Estimación El propósito de la estadística inferencial es extraer conclusiones sobre la población a partir de los datos de una muestra. Para conocer las características de una población, estimamos sus parámetros. Por ejemplo: Pregunta de investigación Para responderla, estimamos... ¿Cuál es la prevalencia de depresión en Francia? Una proporción ¿Cuánto puntúan los españoles en conciencia medioambiental? Una media ¿Son los italianos más extrovertidos que los alemanes? Una diferencia de medias ¿Mejoran sus notas los estudiantes que participan en el programa de apoyo? Una diferencia de medias ¿Hay relación entre el nivel educativo (bajo, medio, alto) y el tipo de puesto (directivo, administrativo, seguridad)? ¿Ha cambiado la intención de voto antes y después del debate? ¿Aumenta la agresividad con la edad? ¿Difieren las personas de distinta orientación sexual (asexual, homosexual, bisexual) en su discriminación percibida (cuantitativa)? ¿Se relaciona la orientación sexual con el nivel de discriminación percibido? Una correlación de Pearson Estimación La estimación puntual consiste, simplemente, en asignar al parámetro el valor del estadístico. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X, y por tanto concluyo que un 30% de las población votará al partido X. La estimación por intervalos consiste en asignar al parámetro un rango dentro del cual esperamos que se encuentre su valor verdadero con una cierta probabilidad. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X. Según el intervalo de confianza, tenemos una confianza del 95% de que el porcentaje de la población que votará al partido X se encontrará entre el 23% y el 37%. Estimación La estimación puntual consiste, simplemente, en asignar al parámetro el valor del estadístico. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X, y por tanto concluyo que un 30% de las población votará al partido X. La estimación por intervalos consiste en asignar al parámetro un rango dentro del cual esperamos que se encuentre su valor verdadero con una cierta probabilidad. - Por ejemplo: En la encuesta se ha encontrado que un 30% de las personas votarán al partido X. Según el intervalo de confianza, tenemos una confianza del 95% de que el porcentaje de la población que votará al partido X se encontrará entre el 23% y el 37%. Precisión de las estimaciones Cuantos más sujetos reclute, más precisas serán mis estimaciones en general. Esto se manifestará en: - Errores típicos más pequeños y por tanto distribuciones muestrales e intervalos de confianza más estrechos - Si estoy haciendo un contraste de hipótesis y mido la media 1 con más precisión y la media 2 con más precisión, entonces también capturaré la diferencia de medias con más precisión, y por tanto será más fácil detectar diferencias significativas (si es que existen). Es decir, aumentará la potencia del contraste y disminuirá la probabilidad de error tipo II. - Esta misma lógica se aplica tanto a una diferencia de medias, como una diferencia de proporciones, una correlación, etc. Tema 3: Contraste de hipótesis Pablo Fernández Cáncer Conceptos clave Conceptos clave 19 Error y potencia estadística Error y potencia estadística El tamaño del efecto Tema 4: Asociación entre dos variables Pablo Fernández Cáncer Pablo Nájera Álvarez Conceptos importantes Conceptos importantes Conceptos importantes Residuos tipificados corregidos: Son los residuos transformados a puntuaciones Z. Permiten ver en qué casillas concretas hay una discrepancia importante entre frecuencias observadas y esperadas. Es decir, permiten ver si los residuos son significativamente distintos de 0 en la población, y así interpretar mejor la relación entre las variables categóricas. Tema 5: Diferencias entre dos grupos o dos variables Pablo Fernández Cáncer Pablo Nájera Álvarez Introducción En este tema vamos a ver los siguientes contrastes estadísticos: • Prueba T para muestras relacionadas: Evalúa la existencia (o no) de diferencias entre dos variables cuantitativas. • Prueba T para muestras independientes: Evalúa la existencia (o no) de diferencias entre dos grupos. • Prueba de McNemar: Evalúa la existencia (o no) de diferencias entre dos variables dicotómicas Cuando hablamos de comparar variables, lo que hacemos es evaluar si sus medias son diferentes. Para ello, es imprescindible que las dos variables estén en la misma métrica. Prueba T para muestras relacionadas La prueba T para muestras relacionadas permite comparar las medias de dos variables cuantitativas medidas en la misma métrica Normalmente, se emplean en el siguiente tipo de estudios: • Estudios transversales: dos variables distintas medidas en una muestra (p. ej., capacidad léxica y razonamiento visoespacial de los estudiantes de psicología) • Estudios longitudinales: una variable medida en una muestra en dos momentos distintos (p. ej., nivel de ansiedad antes y después del tratamiento) • Muestras emparejadas o díadas: una variable medida en dos muestras de personas emparejadas (p. ej., extraversión en gemelos, satisfacción marital de mujer y marido) En todos estos ejemplos, el resultado es contar con dos variables cuantitativas provenientes de muestras relacionadas o muestras repetidas Esta prueba se puede complementar con la correlación de Pearson si también se quiere estudiar la relación entre las dos variables continuas Conceptos importantes Conceptos importantes Tema 6. Diferencias entre más de dos grupos o variables Pablo Fernández Cáncer Pablo Nájera Álvarez Conceptos importantes Factor completamente aleatorizado (CA): Factor que divide la muestra en grupos independientes, de forma que cada grupo de sujetos pasa por un sólo nivel del factor. Son los mismos factores que se utilizan en la prueba T para muestras independientes. Factor de medidas repetidas (MR): Factor por cuyos niveles pasan todos los sujetos, igual que en la prueba T para muestras relacionadas. Variable dependiente (VD): Es la variable cuantitativa que nos interesa estudiar. Variabilidad intergrupos: Variabilidad que hay entre las medias de los grupos. Recoge el efeto del factor sobre la VD. De aquí deriva la media cuadrática intergrupos, que utilizamos para calcular la F. Variabilidad intragrupos: Variabilidad que hay dentro de los grupos. Es la variabilidad que no se debe al efecto del factor, sino a otras cosas (otras variables, diferencias individuales, etc.). Se considera ruido o error. De aquí deriva la media cuadrática error, que también se utiliza para calcular la F. Conceptos importantes Estadístico de contraste F: Es el estadístico de contraste que se utiliza en los análisis de varianza (ANOVA y prueba de Levene). Se calcula como la media cuadrática intergrupo dividida entre la media cuadrática intragrupo. Se interpreta como un indicador de la variabilidad que hay entre las medias de los grupos (refleja el grado de parecido existente entre las medias). No puede obtener valores negativos. Supuesto de esfericidad: Supuesto que deben cumplir los factores de medidas repetidas del ANOVA. El supuesto es que las varianzas en las distintas medidas repetidas son iguales, y que también lo son las covarianzas entre ellas. Eta cuadrado y omega cuadrado: Son las medidas de tamaño del efecto que se usan en el ANOVA. Se interpretan como el porcentaje de varianza que el factor explica de la VD. Comparaciones de tendencia: Contrastes cuyo propósito es examinar la forma de la relación entre el factor (sólo si es ordinal) y la VD. Prueba de Tukey: Prueba de comparación de medias similar a la prueba T pero que controla la tasa de error tipo I para que no se infle a causa de las múltiples comparaciones. Conceptos importantes Efecto principal: Efecto de un factor sobre la VD. Efecto simple: Diferencia que hay entre los niveles de un factor condicionado a un solo nivel del otro factor. Efecto de interacción: Hay una interacción cuando, a nivel poblacional, los efectos simples de un factor no son iguales en todos los niveles del otro factor. Es decir, si el efecto de un factor en la VD es igual para todos los niveles del otro factor, entonces no hay interacción. Si el efecto de un factor sobre la VD difiere entre alguno de los niveles del otro factor, entonces sí hay interacción. Prueba de Kruskal-Wallis: Alternativa no paramétrica al ANOVA A-CA. Prueba de Friedman: Alternativa no paramétrica al ANOVA A-MR. Tamaño del efecto y comparaciones múltiples ¿ = ? ¿ = ? ¿ = ?