Análisis de Datos I PDF

ANÁLISIS DE DATOS I Yolanda Balboa Bandeira 1º PSICOLOGÍA UNIVERSIDAD DE DEUSTO ÍNDICE Tema 1: Medición y estadística página 1 Teoría Tema 2: Estadística descriptiva página 5 Teoría Práctica o Práctica de frecuencias o Representar gráfica o Calcular moda, mediana, intervalos y media Tema 3: Distribución normal página 13 Teoría Práctica o Calcular Z o Calcular probabilidad Tema 4: Muestreo página 19 Teoría Práctica o Calcular intervalos de confianza (CI) Tema 5: Contraste de hipótesis estadísticos página 25 Tema 6: Pruebas de contraste de hipótesis página 31 Tema 1: Medición y estadística 1. Método científico 1. Pasos 2. Estadística: 1. Estadística descriptiva 2. Estadística inferencial 3. Medición en Psicología 1. Escalas de medida: nominal(cualitativa), ordinales(casi-cuantitativa), nivel de intervalo (cuantitativas) 2. Clasificación de variables (VI, VD, VE) 1. MÉTODO CIENTÍFICO PASOS: Formular una pregunta de investigación Generar una hipótesis (la ponemos a prueba) Recogemos y analizamos datos (operacionalizar: Proceso por el que se seleccionan fenómenos observables para representar conceptos abstractos) Extraemos conclusiones Difundir los resultados 2. ESTADÍSTICA Ciencia que se encarga de recoger, ordenar y analizar los datos de una muestra extraída de una población para, después, hacer inferencias acerca de esta población valiéndose del cálculo de probabilidades. 2.1 Descriptiva La estadística descriptiva es la rama de la estadística encargada de describir la información contenida en un conjunto de datos (muestra). RESUMIR Y ORGANIZAR DATOS. *las características variables nominales (que estudiamos, qué hobbies tenemos, cuánto medimos), ej: describir a los alumnos de una clase. // es lo que hay, no comparamos nada, es lo que es. Y contiene sí o sí información de a quién se lo han aplicado.* Muestra: parte representativa pero aleatoria, permite generalizar los resultados a toda la población → los estudiantes de 5 colegios seleccionados de Gipuzkoa y 5 de Bizkaia (n=muestra) 1 Población: conjunto de todos los individuos (pero como es imposible coger a todos…cogemos un cacho, una muestra) → todos los estudiantes de Gipuzkoa y Bizkaia Hablamos de estadística descriptiva cuando se cuenta el número de pájaros en una jaula. (Si queremos saber cuántos Mercadona hay en Bizkaia cogemos todos los Mercadona de Bizkaia, y es descriptiva, pero si ya cogemos más de otros sitios y empezamos a comparar, ya es inferencial) 2.2 INFERENCIAL La estadística inferencial es la rama de la estadística encargada de generalizar (inferir) la información contenida en este conjunto particular de datos (muestra) al conjunto total de datos (población) a los que representan. EXTRAER INFORMACIÓN Y ELABORAR CONCLUSIONES *hacemos análisis. Queremos comparar quienes han tenido mejores resultados. Ej: explica la ¿situación? Análisis de probabilidades* Hablamos de estadística inferencial cuando queremos comparar los resultados académicos de todos los estudiantes de Gipuzkoa y de Bizkaia, y para eso seleccionamos 5 ikastolas de cada provincia (Etxeberria, 2001). Hablamos de estadística inferencial cuando se hace una aproximación al número de palomas que atraviesa Euskal Herria durante un tiempo (Etxeberria, 2001). 3. MEDICIÓN EN PSICOLOGÍA Variables: Las características que me podrían interesar en el estudio del ejemplo y varían de unos individuos a otros adoptando distintas modalidades. Constantes: características NO variables, al ser seres humanos es poco habitual que hablemos de constantes ya que vivimos en constante cambio. (ej: en nuestro estudio con humanos la especie es una constante (homo sapiens sapiens)) La medición consiste en asignar valores numéricos a las distintas modalidades (niveles) de una característica (variable), de manera que las relaciones entre los números reflejan las relaciones entre las modalidades a las que se simbolizan. 3.1 ESCALA DE MEDIDAS Nominal: Atribuirle un número a algo para que nosotros sepamos de qué estamos hablando (etiquetar variables). Solo para indicar las diferentes modalidades. (se hacía referencia a variables que describen una característica // la tele es un objeto, pero le ponemos un número para la base de datos). CUALITATIVAS → características de un individuo u objeto (color de pelo, nombre, ideología, sexo). 2 Ordinal: Magnitud (no datos concretos, si el orden), puntúa/ordena de mayor a menor. (ej: pongo etiqueta de 1 a la ESO y etiqueta de 2 a la universidad, ¿por qué? porque dos es mayor que uno y el grado universitario es mayor que los estudios de ESO) → PERO puede no tener detalle (ej: sé que un paciente tiene más estudios que otro pero no sé exactamente cuántos estudios más) (da un poco más de información, da orden, jerarquía // nos da más información que la nominal → “he sacado un sobresaliente” - te está diciendo que ha sacado más que un notable, más que un aprobado, pero no sabemos si es un 9 o un 10 o…) CASI CUANTITATIVAS → modalidades NO numéricas que tiene un orden (aprobado, bien, notable, sobresaliente // probable, neutro, no probable) Politómica: más de dos etiquetas Nivel de Intervalo: Aquí sí que tengo precisión en los datos (ej: sé que 36º es más bajo que 38º pero más alto que 35º → por lo que sé que sé que 36 y 38 no son los mismos grados, sé que 36 es menos y 38 mayor, y se CON PRECISIÓN que 38 es dos grados mayor que 36). Nos da números, pero no tiene un cero absoluto, no solamente hay jerarquías, sino que también te da un número. Unidad de medida concreta y la distancia entre ellas. No existe 0 absoluto en intervalo (si hay un 0 será por ejemplo de grados (temperatura) → hay 0 grados pero TENGO frío) Nivel de razón: Hay cero absoluto (datos cuantitativos pero con 0 absoluto - se puede hacer sumas, restas, multiplicaciones…) → dinero, altura, peso, volumen, distancia, masa.. → CERO ABSOLUTO = AUSENCIA DE ALGO CUANTITATIVAS → tienen un valor numérico (edad, grados, altura, peso) Discretas: No admiten modalidades intermedias entre dos de sus modalidades (la media de hijos no puede ser 3’6, porque tendrás 3 o 4 hijos → no decimales) Continuas: Sí admiten modalidades intermedias entre dos de sus modalidades (kg o cm → decimales). 3 4. CLASIFICACIÓN DE VARIABLES: VI - independiente: influye o determina los valores que adopta una segunda variable ( la dependiente ) → usar el móvil por la noche. VD - dependiente: Dependen de los valores que adoptan las variables independientes. → estar más cansado VE - extraña: Terceras variables ajenas que medían en la relación entre la/s dependientes y la/s independientes. → tener insomnio. 4 Tema 2: Estadística descriptiva 1. Qué hago con los datos? 1. Organización 2. Exploración 2. Visualización (gráficas) 1. Histograma 2. Polígono de frecuencias 3. Pictograma 4. Diagrama de sectores 5. Diagrama de barras 3. Características de los datos 1. Simetría 1. Asimetrías 2. Curtosis 2. Tendencia central 1. Mediana 2. Media aritmética 3. Moda 3. Índices de posición (Cuantiles) 1. Cuartiles 2. Deciles 3. Percentiles 4. Variabilidad 1. Desviación media 2. Varianza y desviación típica 1. ¿QUÉ HAGO CON LOS DATOS? Tabla de frecuencias: Buena forma de explorar los datos. Para construirla utilizaremos una fila para cada modalidad de la variable que nos interesa. Modalidades: → X FRECUENCIA ABSOLUTA → (ni): Cuánta gente está en una misma modalidad. Número de veces que ese valor se repite en la muestra FRECUENCIA RELATIVA (pi) = ni / N proporción o % de casos en una determinada modalidad. Hay ocasiones en que no estamos interesados/as en la proporción de casos en cada modalidad, sino en el número o en la proporción de casos que alcanzan una modalidad: frecuencias acumuladas 5 FRECUENCIA ABSOLUTA ACUMULADA (sumar): conocer cuántos casos. Número de veces que se repite en la muestra ese valor o cualquiera inferior a él. Quiero conocer cuántos casos (estudiantes) NO alcanzan el 5 (alcanzan un 4 como máximo) tendré que sumar los que sacan un 0+1+2+3+4 FRECUENCIA RELATIVA ACUMULADA (dividir): proporción de casos. Quiero conocer la proporción de casos (estudiantes) que NO alcanzan el 5 (suspenden) → sumar las proporciones correspondientes al número de casos que sacan un 0+1+2+3+4 La frecuencia relativa crea el porcentaje La frecuencia relativa acumulada crea el porcentaje acumulado La marca de clase es el límite inferior más el superior entre 2 (es una media entre el inferior y el superior) Intervalos: Cuando la variable es continua y el número de valores distintos (modalidades) es muy grande, se pueden agrupar los valores en grupos llamados “intervalos” o “clases”. Ej: Imaginad que nuestra variable de interés es el salario mensual. Si tuviésemos que calcular frecuencias de cada posible salario tendríamos una tabla enorme que no nos serviría para nada: Lim. Aparentes: No continuos 38-40 Lim. Verdadero: Continuos. Está incluido el inferior, no el superior 37.5 ≤ x < 40.5 Valor central (Xi) de cada intervalo (Límite inferior + Límite superior) /2 à es la cantidad representada. 6 2. VISUALIZACIÓN: 2.1. HISTOGRAMA: (CONTINUA) Es un conjunto de barras en el que: Abscisas: valores de la variable. Ordenadas: Frecuencia de las veces que ocurre. 2.2. POLÍGONO DE FRECUENCIAS Los puntos representan las notas, son discretas. Marca justo la media. Se sustituyen las barras del histograma por un punto que corresponde con la frecuencia absoluta de cada modalidad de la variable uniendo los puntos con líneas. 2.3. PICTOGRAMA Representación a través de dibujos (similar al diagrama de barras). 2.4. DIAGRAMA DE SECTORES: Sectores (los quesitos divididos) (nominal con pocos atributos) 2.5. DIAGRAMA DE BARRAS: Similar al histograma, pero las barras se dibujan separadas unas de otras (nominal con alto número de atributos, variables medidas a nivel ordinal y variables cuantitativas discreta). RESUMEN: 7 3. CARACTERÍSTICAS DE LOS DATOS (GRÁFICA) 3.1. SIMETRÍA: Número similar de casos a la derecha y a la izquierda del valor central. ASIMETRÍA Valores negativos → Cercanos a 0 → Valores positivos → La asimetría también se puede apreciar en los diagramas de caja. CURTOSIS Grado de aplastamiento de la distribución de frecuencias. Valores positivos → Valores cercanos a 0 → Valores negativos → 3.2. TENDENCIA CENTRAL Representan la magnitud general de las observaciones, es decir, el valor en torno al cual se encuentra ubicado el conjunto de los datos. Uno de esos índices es la media aritmética. MEDIANA (MD) Es el valor que se encuentra en el centro de la distribución. La distribución se divide en dos mitades con el mismo número de casos → La mediana es la puntuación del caso que se encuentra en medio, o la media de los dos casos que están en medio. Para conocer el valor de la mediana debes buscar cuál es el valor que ocupa la posición que te indica la fórmula. 8 1. Ordenamos las observaciones de menor a mayor. 2. Dividimos las observaciones en 2 posiciones iguales. 3. Se obtiene un valor que llamamos mediana que deja por debajo y por encima de sí la mitad de las observaciones. Si el número de observaciones es impar: Aplicar la fórmula: (n+1)/2 Si el número de observaciones es par Hacer promedio de las 2 posiciones centrales. MEDIA ARITMÉTICA Suma de todas las puntuaciones dividida entre el número de puntuaciones. La medida de tendencia central que más se utiliza, pero NO se puede calcular si los datos son cualitativos, y es muy sensible a los valores extremos (producen una distorsión en el valor de la media). Frecuentemente no corresponde a un valor real. También es sensible a la falta de uniformidad en la magnitud de los intervalos entre valores. Habitualmente mediremos la media muestral (estadístico ҧ 𝑥), y haremos estimaciones de la media poblacional (parámetro μ). MODA (Ҧ ) 9 Es el valor que se repite un mayor número de veces en un conjunto de datos. Representa el valor más frecuente (elegimos el valor que más se repite). La moda es menos representativa que la media aritmética, pero a veces puede ser más útil, como en el caso de datos cualitativos. Casos especiales: Cuando todos los valores son diferentes no existe moda, y la distribución es amodal (uniforme) Cuando dos puntuaciones adyacentes tienen la misma frecuencia, se hace el promedio y nos da el valor de la moda. Cuando dos puntuaciones no adyacentes tienen la misma frecuencia, se dice que existen varias modas. Si son solo dos puntuaciones no adyacentes, se denomina bimodal; cuando son tres o más se llama multimodal. La media, la moda y mediana son estadísticos que nos permiten hacernos una idea en torno a qué valor están los datos de nuestra muestra. 3.3. ÍNDICES DE POSICIÓN: CUANTILES Indican la situación de una puntuación con respecto a un grupo, utilizando a este grupo como referencia. Cuantil → valor en el cual y por debajo del cual hay una determinada proporción de la población. Son los tres valores que dividen el conjunto de observaciones en cuatro porciones iguales. CUARTILES (Qx) Cuartiles son los valores en los cuales y por debajo los cuales hay: Una cuarta parte de la muestra (valor del primer cuartil o Q1) Dos cuartas partes de la muestra (valor del segundo cuartil o Q2) Tres cuartas partes de la muestra (valor del tercer cuartil o Q3). Al basarse en la división de la muestra en 4 parte Para calcular los cuartiles: 10 1. Ordenamos las observaciones de menor a mayor. 2. Dividimos las observaciones en 4 posiciones iguales. 3. Se obtienen 3 cuartiles: Q1 deja por debajo de si una cuarta de las observaciones, Q2 deja por debajo 2 cuartas partes de los datos y Q3 deja por debajo 3 cuartas partes de los datos. ¿Cómo calculamos los cuartiles matemáticamente? Valor que ocupa la posición: n → número de datos que tendremos. k → cuartil que queremos calcular. PERCENTILES (Px) Son valores que dividen una serie de observaciones en cien porciones iguales, por lo que tendremos 99 percentiles. (el P1 que deja por debajo al 1% de las observaciones, el P2 que deja por debajo al 2%, etc) Correspondencia entre los cuartiles y percentiles → Q1 = P25 Q3 = P75 Q2 = P50 = Mediana 4. ÍNDICES DE VARIABILIDAD/DISPERSIÓN Dan información sobre cómo los distintos casos están distribuidos. Indican la distancia entre las puntuaciones. Rango: Dice el máximo y el mínimo, es la diferencia (resta) entre la puntuación más grande y la puntuación más pequeña (cuanto más grande sea este valor, mayor será la dispersión de los datos). → Bigotes=resto de datos. 11 Rango intercuartílico: Mide el grado de dispersión del 50% de los casos centrales. Diagrama de caja (boxplot) y bigotes: Muestra grupos de datos numéricos a través de sus cuartiles. Las líneas que se extienden fuera de la caja se utilizan para indicar la variabilidad fuera de los cuartiles superiores e inferiores. 4.1. VARIANZA: Desviación de cada caso con respecto a la media. La suma de estas desviaciones es SIEMPRE cero no se puede calcular su promedio. En su lugar, podemos calcular el cuadrado de la desviación de cada caso con respecto a la media. La varianza es el promedio de estos cuadrados. (𝜎2 es el parámetro de la población y 𝑠2 el estadístico de la muestra). No son interpretados directamente. por eso utilizamos la desviación típica o estándar La varianza es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media, pero al elevar las puntuaciones al cuadrado, las unidades de medida de la varianza no son interpretables directamente. 4.2. DESVIACIÓN TÍPICA O ESTÁNDAR: Se calcula como la raíz cuadrada de la varianza. Es cuánto se desvían los casos. Cuanto más alto sea el coeficiente de variación = más diferencias hay (heterogeneidad). 12 Tema 3: Distribución normal 1. Teoría de la probabilidad 2. Distribución de probabilidad 1. Distribución uniforme 2. Distribución discreta 3. Distribución continua (normal) 3. Función de densidad 4. Función de distribución acumulada 5. Área bajo la curva 6. Teorema del límite central 7. Distribución normal estándar 8. Aplicaciones de la curva normal 1. Gráfico Q-Q 2. Contraste de hipótesis CONCEPTOS BÁSICOS: Estadística paramétrica = cálculos asumiendo que conoce cómo se distribuye la variabilidad aleatoria que estamos analizando (Student t (t-test), ANOVA, Pearson Correlation, Analysis of variance) Estadística no paramétrica = cálculos que parten de la idea de que no sabemos o no tienen una distribución particular, la muestra es demasiado pequeña → son más robustas que las paramétricas (Mann-Whitney U test, Superman correlation, Wilcoxon test, Kuskal-Wallis test)… 1. TEORÍA DE LA PROBABILIDAD: La probabilidad se encarga de medir cuánto de probable es un suceso. Porcentaje de que ocurra algo, aunque no es nada certero. Se mide en un rango de 0 (nada probable, 0%) a 1 (seguro que ocurre, 100%). 2. DISTRIBUCIONES: Dependiendo del tipo de medida y lo que se mida se distribuye de una forma u otra: 2.1. DISTRIBUCIÓN UNIFORME Existe la misma posibilidad de que ocurra cada suceso. ej: distribución de un dado. Sucesos posibles = A = {1,2,3,4,5,6} 13 2.2. DISTRIBUCIÓN DISCRETA Binomial Poisson Bernoulli 2.3. DISTRIBUCIÓN CONTINUA Exponencial o T de student o Weibull Normal o Chi cuadrado o F de Fisher-Snedecor Historia: Abraham de Moivre, era adelantado a su tiempo, fue el primero en reconocer la curva normal. Carl Friedrich Gauss, perfeccionó la curva normal de abraham y creó la campana de Gauss. IMPORTANCIA Morfológicas: rangos → Personas y animales: tallas, pesos… Psicológicas: Cociente intelectual, adaptación a un medio, propensión a la violencia, sentido del humor… Sociológico: Consumo de un producto, examen Medición: Cálculo de errores (los errores que se suelen cometer también pueden seguir una distribución normal) Estadísticos muestrales: Si medimos el nivel de fiabilidad en 100 clases distintas, las medias y desviaciones también tenderán a distribuirse de esta forma. 14 CARACTERÍSTICAS Tiene un carácter universal. Puede tomar cualquier valor (desde + infinito hasta - infinito). Cuanto más alejados de la media, menos frecuentes son los casos. Suele ser simétrica → Los valores más probables son más cercanos a la media. En dos distribuciones normales con distinta variabilidad (desviación típica, σ), los valores alejados de la media serán más probables en la distribución con mayor variabilidad, puesto que la curva es más achatada (curtosis). Es unimodal (solo tiene una moda o pico) (siempre en la distribución normal). Simétrica = La probabilidad de que un dato sea superior/inferior a la media es del 50%. Moda = Mediana = Media La forma de la gráfica (curtosis) depende de: 1. Media (μ) 2. Desviación típica (σ) (curtosis) → 3. FUNCIÓN DE DENSIDAD: Def.: Cómo se colocan los datos. F F(x)= probabilidad concreta de que suceda un valor. 4. FUNCIÓN DE DISTRIBUCIÓN ACUMULADA: Que valor ocupa à Probabilidad de que un valor igual o menor suceda. F(x)= la probabilidad de que un valor menor de x suceda 15 5. ÁREA BAJO LA CURVA: Probabilidad de que ocurra la variable X. La mayoría de datos están acumulados en el centro. Según la desviación típica podemos conocer el porcentaje de muestra. Se consideran valores estándar. El área por debajo de la curva = la frecuencia en la que se encuentra el sujeto o+1, o+2, o+3. No puede ser negativo, se presenta como valor negativo pero por simple representación, por ubicarnos, pero no por el valor. 6. TEOREMA DEL LÍMITE CENTRAL Permite presuponer que cuanto más grande es la muestra se homogeniza y adquiere una distribución normal. (Nos indica que, bajo condiciones generales, según aumenta la cantidad de datos, la distribución de la suma de variables aleatorias tenderá a seguir hacia una distribución normal) “Garantiza” una distribución normal cuando el tamaño de la muestra es grande → n

Análisis de Datos I PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue