Introduccion a la Estadistica PDF
Document Details
Uploaded by Deleted User
2024
Aguilar Cacho, Renzo / Casaño Meza, Mayte Luzmila /Castillo Blanco, Ronald Wilfredo / Castro Chirinos, Gianfranco / Kaneko Aguilar, Juan Jose etc.
Tags
Summary
This document provides an introduction to statistical measures, specifically focusing on measures of central tendency, variability, and normality, for a statistics course. It defines key terms like mean, median, mode, percentiles, and quartiles.
Full Transcript
Introducción a la Estadística Semana 2 / Sesión 1: Medidas de tendencia central y no central, medidas de variabilidad, puntuaciones Z, normalidad, medidas de forma Profesores: Aguilar Cacho, Renzo / Casaño Meza, Mayte Luzmila / Castillo Blanco, Ronald Wilfre...
Introducción a la Estadística Semana 2 / Sesión 1: Medidas de tendencia central y no central, medidas de variabilidad, puntuaciones Z, normalidad, medidas de forma Profesores: Aguilar Cacho, Renzo / Casaño Meza, Mayte Luzmila / Castillo Blanco, Ronald Wilfredo / Castro Chirinos, Gianfranco / Kaneko Aguilar, Juan Jose / Kohler Herrera, Johanna Liliana / Mosquera Torres, Fernando / Navarro Loli, Jhonatan Steeven Baruch / Paliza Olivares, Victor Fabrizzio / Portocarrero Ramos, Carlos Alberto / Salazar Intusca, Sixto / Tomás Rojas, Ambrosio 2024 - 2 Logro de la sesión: El estudiante identifica la importancia de las medidas de tendencia central y no central, medidas de variabilidad, puntuaciones Z, normalidad y medidas de forma 2 La estadística descriptiva 3 Estadística descriptiva Es una rama de la estadística que se ocupa de recolectar, organizar, resumir y presentar datos de una manera informativa y sintetizada. 4 Expresión resumida de la información Medidas de Medidas de tendencia tendencia no central centrales Medidas de Medidas de dispersión forma 5 Medidas de tendencia central 6 Medidas de tendencia central Media (M) Es la suma de las observaciones dividida por el número de estas. También se le conoce como promedio. Mediana (Mdn) Es el valor que divide a las observaciones en dos grupos iguales, en donde estos se encuentran previamente ordenados. Moda (Mo) Es el valor de la observación con mayor frecuencia. Pueden ser varios. 7 La mediana (Mdn): 1. Luego de ordenar los datos en orden ascendente, es el valor que divide al conjunto de datos en partes iguales. Valor central de un conjunto de datos. 2. No es afectada por el número de datos ni por valores extremos o atípicos. 3. Puede variar si la distribución es par o impar 4. Se usa en variables cuantitativas. 8 La moda: 1. Valor que ocurre con más frecuencia. 2. Se puede determinar la moda en grupos de datos de todos los niveles (nominal, ordinal, intervalo y razón). 3. Puede existir más de una moda para cada grupo de datos. 4. A la moda no le afectan valores extremos, por eso es especialmente útil cuando están presentes estos valores. 9 La moda: 1. Valor que ocurre con más frecuencia. 2. Se puede determinar la moda en grupos de datos de todos los niveles (nominal, ordinal, intervalo y razón). 3. Puede existir más de una moda para cada grupo de datos. 4. A la moda no le afectan valores extremos, por eso es especialmente útil cuando están presentes estos valores. 10 Algunas ideas clave: ✓ En las investigaciones en ciencias sociales usualmente se reporta la media en lugar de la mediana en consideración de qué tan representativo sea de los datos. 11 Medidas de tendencia no central 12 Medidas de tendencia no central Valor mayor Valor mayor 25% Percentiles: Son 99 valores P80 - P75 - C3 que dividen en cien partes iguales el conjunto de datos P67 - previamente ordenados. P50 P50 50% Cuartiles: Son los tres valores - - C2 que dividen al conjunto de datos ordenados en cuatro partes iguales. Son un caso particular de percentiles. P25 - P25 - C1 25% Valor menor Valor menor 13 Algunas ideas clave: ✓ El valor del percentil X se entendería como el valor que supera o estar por encima del X% de los demás datos. ✓ Los cuartiles pueden ayudar a dividir a la muestra en tres grupos, donde el grupo central contiene a la mediana y representa el 50% de los datos. 14 Medidas de variabilidad 15 Previo a las medidas de dispersión, reflexionemos: Se tienen dos ambientes con pacientes donde se intervendrá en depresión. Tenemos como personal disponible a la psicóloga experta y a la practicante aplicada. Para decidir a qué ambiente va cada una, otro practicante aplica unas pruebas de tamizaje obteniéndose en ambos ambientes el promedio de 15.4, ¿Implicará eso que los grupos son indistintos? Recordando los cursos de estadística, recordamos que es importante siempre reportar una medida de variabilidad de Ambiente A Ambiente B los datos. Depresión: M = 15.4, DE = 1.2 Depresión: M = 15.4, DE = 4.5 ¿Por qué optaron por ir a esas aulas? 16 Medidas de dispersión La varianza Informa sobre el promedio de los cuadrados de las distancias de cada uno de los datos con respecto a la media. Desviación Estándar (Desviación típica) (S) (DE) (SD), es la raíz cuadrada de la varianza. El recorrido: Valor entre los valores máximo y mínimo de la variable. Amplitud: Diferencias entre los cuartiles tercero y primero. 17 Reflexionemos sobre dispersión: Si en un salón de clases la M = 15, ¿qué tan disperso estará alguien que tiene 17? Para resolver esto hemos pensado que una expresión La anterior expresión se encuentra con una de la dispersión sería 17 – 15 = 2, o en fórmula: expresión cuadrática. Entonces para volverlo a las 𝑑𝑖 = 𝑥𝑖 − 𝑥ҧ unidades iniciales, obtendremos la raíz cuadrática de los anterior. Esto es la desviación estándar. Pero si hubiera alguien con 13, la diferencia sería negativa (-2) y este valor se cancelaría con el anteriormente obtenido. Para corregir, esto, σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 elevaremos al cuadrado: 𝐷𝐸 = 𝑛 = (𝑥𝑖 − 𝑥)ҧ 2 Ahora como quisiéramos considerar todas las La reflexión sobre fórmula nos permite concluir dispersiones, entonces hagamos un promedio que podemos aplicar la desviación estándar en la σ𝑛 𝑥 𝑖=1 𝑖 −𝑥ҧ 2 medida que tenga sentido usar la media; por lo = tanto, debemos tener variable numérica. 𝑛 18 Previo a las medidas de dispersión, reflexionemos: Se tienen dos ambientes con pacientes donde se intervendrá en depresión. Tenemos como personal disponible a la psicóloga experta y a la practicante aplicada. Para decidir a qué ambiente va cada una, otro practicante aplica unas pruebas de tamizaje obteniéndose en ambos ambientes el promedio de 15.4, ¿Implicará eso que los grupos son indistintos? De acuerdo con nuestros cursos de estadística, recordamos que es importante siempre reportar una medida de variabilidad de los Ambiente A Ambiente B datos. Depresión: M = 15.4, DE = 1.2 Depresión: M = 15.4, DE = 4.5 ¿Por qué optaron por ir a esas aulas? 19 El coeficiente de variación Veamos un caso de las mediciones en dos variables: Escala de autoestima: Escala de depresión: DE = 10 DE = 10 DE = 2 DE = 2 Valor M = 60 Valor Valor Valor M=6 mínimo máximo mínimo máximo posible: 0 posible: 100 posible: 0 posible: 10 Como la DE = 10 en autoestima es mayor que la DE = 2 en depresión, ¿Podemos decir que la dispersión en autoestima es mayor que en depresión? ¡No! Se define al coeficiente de variación como CV = (DE/M)*100% para poder hacer la comparativa de variabilidades en el caso que se comparen dos variables con distintos rangos de valores posibles. En el caso: Conclusión: la autoestima muestra menor Para autoestima: CVautoestima = (10/60)*100% = 16.7% dispersión relativa (CV = 16.7%) en Para depresión: CVdepresión = (2/6)*100% = 33.3% comparación con la depresión (CV = 33.3%) Algunas ideas clave: ✓ Solo se reporta la desviación estándar, no la varianza. ✓ La desviación estándar es pertinente en una distribución de datos donde la media es pertinente. ✓ Una desviación estándar más grande implica una mayor dispersión de los datos alrededor de la media. ✓ El coeficiente de variación es una medida útil para la comparación de la variabilidad relativa entre puntuaciones con diferentes rangos de valores posibles. 21 Puntuaciones Z 22 Puntuación Z La puntuación Z es una forma conveniente de representar a los datos 𝑥𝑖 − 𝑀 Donde: 𝑍𝑖 = 𝑥 i = valor de la variable 𝐷𝐸 𝑀 = media 𝐷𝐸 = desviación estándar Ejemplo: Sobre las notas de un grupo de estudiantes: Notas Puntuaciones Z x1 = 17 z1 = 1 La puntuación Z es M = 15 x2 = 15 z2 = 0 una puntuación DE = 2 x3 = 13 z3 = -1 estandarizada y es x4 = 19 z4 = 2 independiente del x5 = 18 z5 = 1.5 escalamiento que se dé a la variable. Podemos construir una tabla de equivalencias 11 13 15 17 19 PD 23 -2 -1 0 1 2 Z Algunos ejemplos: En una prueba de capacidad lingüística A, Carlitos obtiene 42 ?! 25 30 35 40 42 45 PD -2 -1 0 1 2 Z Segunda prueba de capacidad lingüística B, Carlitos obtiene 130 ?!! 60 80 100 120 130 140 PD -2 -1 0 1 2 Z Notar que la puntuación Z sería una forma estándar para interpretar las puntuaciones. Si alguien nos dijera “Mi puntuación Z es 2”, nosotros rápidamente podemos interpretar que su puntuación es superior al promedio en dos desviaciones estándar. 24 Algunas ideas clave: ✓ La puntuación Z es una forma conveniente de representar a los datos (en unidades de desviación estándar). ✓ Una tabla de equivalencias e interpretación de puntuaciones se pueden construir según puntuaciones Z (inteligencia y habilidades). 25 Normalidad 26 Distribución normal Mejor veamos un video! 27 Distribución normal Mejor veamos un video! 28 28 Veamos la frecuencia de elementos según una determinada característica: ¿Se nota la forma de la distribución? 29 29 Distribución normal 30 30 Medidas de forma 31 Medidas de forma Asimetría: Curtosis: 32 Asimetría Permite conocer el grado de asimetría de la distribución. La asimetría se presenta cuando existe mayor cantidad de puntuaciones a los extremos de la distribución. Asimetría negativa Asimetría positiva En estos casos la media no es un En estos casos la media no es un buen indicador de medida de buen indicador de medida de tendencia central y se recomienda tendencia central y se recomienda considerar a la mediana considerar a la mediana. Medida de asimetría -5 -3 -2 0 2 3 5 Asimetría neg. Simetría Asimetría pos. Curtosis Es una medida estadística, que determina el grado de concentración que presentan los valores de una variable alrededor de la zona central de la distribución de frecuencias. Además, permite identificar valores extremos. Si la distribución es leptocúrtica, el índice es superior a 0. Los En ambas se pueden valores se concentran encontrar valores extremos alrededor de la media Si la distribución es Si la distribución es normal (mesocúrtica), platicúrtica, el índice es el índice vale 0 inferior a 0. Existe una baja concentración de valores alrededor de la media Medida de asimetría -5 -3 -2 0 2 3 5 Platicurtosis Mesocurtosis Leptocurtosis Otros criterios sobre los valores de asimetría y curtosis (Kline, 2016, pp 76,77) 35 Algunas ideas clave: ✓ Una consecuencia de la representatividad y de la amplia cantidad de casos/sujetos/participantes es una distribución normal de los datos. ✓ Una medida del alejamiento de la normalidad principalmente se reporta con la asimetría. ✓ No existe una justificación objetiva sobre un valor de asimetría límite para considerar a la distribución con una desviación pronunciada de la normalidad. Sin embargo, se va conviniendo que esta no debe de pasar de los valores de 3, 2 o 1.5 en valor absoluto. ✓ En el curso consideraremos el límite de 2 en valor absoluto para valor máximo con asimetría o curtosis elevadas. 36 36 Referencias Aron, A. (2001). Estadística para psicología (Elaine. Aron, Ed.; 1a ed.). Pearson. Bologna, E. (2011). Estadística para psicología y educación (Corp. e-libro, Ed.). Brujas. American Psychological Association. (2020). Manual de Publicaciones de la American Psychological Association (7th ed.). American Psychological Association. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlkbaum. Cooper, H. (2020). Reporting quantitative research in psychology: how to meet APA style journal article reporting standards. American Psychological Association. Field, A. P. (2018). Discovering statistics using IBM SPSS (A. P. Field, Ed.; Fifth edition.). Sage Publications. Kline, R. (2016). Principles and practice of structural equation modelling (4th ed.). The Guilford Press. Nicol, A. A. M., & Pexman, P. M. (2010). Presenting your findings: A practical guide for creating tables (APA (ed.); 6th ed.). American Psychological Association. Triola, M. F. (2018). Estadística. Pearson.