Tema 2. Introduccion al proceso de datos PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Este documento proporciona una introducción al proceso de datos y al análisis de datos, incluyendo conceptos como la estadística, las pruebas estadísticas univariadas, bivariadas y multivariadas, las medidas de tendencia central (media, mediana, moda), medidas de variabilidad (varianza, desviación típica, cuasivarianza), así como medidas de posición y distribución (percentiles, deciles, cuartiles, asimetría, curtosis). Describe también las pruebas bivariadas, como las correlaciones, y ofrece ejemplos ilustrativos.
Full Transcript
Tema 2. Introducción al proceso de datos. Introducción: Diferencia entre proceso de datos y análisis de datos El proceso de datos engloba el análisis de datos. Es el conjunto de fases que atraviesan los datos en una investigación. Comienza con el diseño de la recogida de datos y prosigue con la pr...
Tema 2. Introducción al proceso de datos. Introducción: Diferencia entre proceso de datos y análisis de datos El proceso de datos engloba el análisis de datos. Es el conjunto de fases que atraviesan los datos en una investigación. Comienza con el diseño de la recogida de datos y prosigue con la propia recogida de estos. (Por ejemplo: Que variables voy a incluir en el estudio, la muestra necesaria, cómo voy a recoger los datos, etc. En general la metodología y procedimiento). En segundo lugar, se revisan, codifican y graban los datos. Se revisan los cuestionarios y se retiran los que no estén bien realizados. Se codifican los datos, es decir, se les otorga una medida numérica a las posibles respuestas. Se graban los datos en el programa estadístico (SPSS). Una vez recogido los datos y grabados en el programa se analizan. Por último, antes de realizar un análisis estadístico se realiza un análisis explorativo. (E.D.A.: Exploratory data analysis. Tuckey. Un análisis numérico o gráfico de los datos). Una vez analizados los datos de manera explorativa, se realiza el análisis estadístico, para luego realizar una interpretación de los resultados y por último redactar un Informe. Estadística: → Definición: Herramienta matemática que sirve para llevar a cabo el análisis de datos → Tipos de pruebas estadísticas: o Univariadas: Técnicas estadísticas que permiten analizar una sola variable o Bivariadas: Técnicas estadísticas que permiten analizar la relación entre 2 variables o Multivariadas: Técnicas estadísticas que permiten analizar la relación entre más de 2 variables → Pruebas Univariadas: o Medidas de tendencia central: Media aritmética Media recortad: La media del 90%, despreciando el 5% más bajo y más alto. Media geométrica: 𝑁√𝑥1 ⋅ 𝑥2 ⋅ 𝑥3 ⋅ … ⋅ 𝑥𝑁 Mediana: Dato intermedio que deja por encima y por debajo de él el 50% de los datos. Se corresponde con el percentil 50 y el cuartil 2. Moda: Valor que se repite más (unimodal, bimodal, multimodal). o Medida de variabilidad /dispersión: Varianza (σ2, s 2): La dispersión por término medio que se separa cada puntuación de 2 ΣΝ 1 (𝑥𝑖 −𝑋) la media. 𝜎2 = Ν 2 Σ𝑁 1 (𝑥𝑖 −𝑋) Desviación típica (σ, s): Se utiliza para ajustar la varianza a la muestra. 𝜎 = √ 𝑁 Cuasivarianza: Similar a la varianza, pero dividiendo entre N-1, de modo que, al disminuir el valor del denominador, el resultado aumenta, por ello es mejor para el análisis de muestras pequeñas con datos pequeños. El mejor estimador de la varianza poblacional. Amplitud /Rango: Principal medida de variabilidad (valor máx. - valor mín.) Coeficiente de variación: Sirve para comparar dos variables con escalas de medida totalmente distintas, se representa en porcentajes por lo que esta acotado. Más fácilmente interpretable. Recorrido Inter Cuartil (IQR): Rango o amplitud Inter cuartil. Diferencia entre el tercer cuartil y el primero (percentil 75 – percentil 25). o Medidas de posición: Percentiles: Dividir la muestra en 100 partes (El percentil 75 deja por debajo al 75% de la muestra). Decil: Dividir la muestra en 10 partes. Cuartil: Dividir la muestra en 4 partes. o Medidas de distribución: Asimetría /Simetría: Las variaciones normales tienen simetría y para saber si se cumple hay que calcular un índice de asimetría. Curtosis: Cuán puntiaguda es una curva ▫ Leptocúrtica: Curtosis > 0 ▫ Mesocúrtica: Curtosis = 0 (Indicador de distribución Normal) ▫ Platicúrtica: Curtosis < 0 - Indicadores de Distribución Normal: ▫ Simetría - Mesocurtosis - Correspondencia entre media, mediana y moda. ▫ Prueba para reconocer una distribución normal: Prueba K-S → Pruebas Bivariadas: o Correlaciones: Para conocer la relación entre dos variables se calcula dicho estadístico, el coeficiente de correlación que cuantifica el grado de relación entre variables, llegando a conocer también el tipo de relación, directamente proporcional (+) o inversamente proporcional (-). Se denomina como perfecta cuando el valor es 1 o –1. Los resultados que indican una correlación grande son el 0,4 /0,5 /0,6. V. de Escala: Correlación de Pearson, coeficiente de correlación que permite conocer la relación entre dos variables de razón. Esta acotada entre –1 y 1. (0 = no hay relación entre las variables). V. Ordinales: Correlación de Spearman y Kendall (interpretación = Pearson) V. Nominales: Coeficiente Phi (variables nominales dicotómicas), de Contingencia (variables nominales politómicas), la V de Kramer* (una medida de relación entre dos variables categóricas). o Contrastes: Prueba estadística que nos permite realizar comparaciones entre grupos para saber si existen o no diferencias entre grupos. En muestra de tamaño reducido es necesario diferencias grandes para que estas sean significativas. La potencia de contraste es la capacidad para detectar diferencias significativas. V. Métricas: Contrastes Paramétricos, contrastan medias y son utilizados para distribuciones normales. ▫ T de student: Estadístico que compara la media de 2 grupos (hombres/mujeres). ▫ Análisis de varianza (Anova): Estadístico que compara la media de más de 2 grupos (K medias). V. No Métricas: Contraste No Paramétricas, contrasta porcentajes y son utilizados cuando no se sigue una distribución normal. ▫ Chi cuadrado: Compara K porcentajes de los K grupos que analicemos. ▫ Mann-Whitney: Compara 2 medias (= T de student) ▫ Krustal-Wallis: Relaciona K medias (= Anova) → Pruebas Multivariadas: o de Dependencia: Fin explicativo o predictivo, analiza varias variables y establece una relación entre ellas, distinguiendo entre la v. dependiente y la v. independiente. Pretenden explicar una variable a partir de otras. Permite poner a prueba un modelo teórico, depurándolo y filtrándolo para saber que variables tiene un peso significativo. Lo ideal es alcanzar el principio de parsimonia: intentar explicar lo máximo posible con el menor número de predictores posibles. Regresión Lineal Regresión Logística Análisis Discriminativa Análisis de Varianza Múltiple o de Interdependencia: Sus objetivos son reducir y simplificar la relación entre variables y la relación que aportan. El principio de colinealidad es la relación entre las variables dependientes. Lo ideal es que no se dé colinealidad entre las variables, es decir, que las variables independientes sean independientes entre sí. Análisis Clúster o de Conglomerado Análisis Factorial Análisis de Correspondencias Análisis Exploratorio de Datos: → Definición: Análisis preliminar que trata de solventar dos problemas: que los datos no sean buenos o que las herramientas no sean las adecuadas; para ello se llevan a cabo 4 tareas. o Depurar: eliminar los errores de grabación y las incoherencias en las respuestas o Falta de respuestas: preguntas sin contestar (datos missing/ausentes) que pueden alterar los resultados o Casos anómalos: Valores que caen fuera del rango normal de los datos o Comprobación de supuestos: Comprobar si se cumplen los supuestos paramétricos, en especial el supuesto de normalidad. Depuración de datos: → Errores de grabación: Valores fuera del rango admisibles (220 años - 22años) se pueden solventar mediante una tabla de frecuencia → Incoherencias entre respuestas: Se realizan tablas cruzadas o de contingencia para detectar las incoherencias, también pueden utilizarse preguntas filtro Casos Missing: → Datos que faltan, casillas vacías en la base de datos. Suponen una pérdida de representatividad y de validez externa (grado de generalización de la muestra), puesto que la muestra de la población se reduce. El tamaño y aleatoriedad de su distribución es importante para evitar sesgos. → Problemas y riesgos: o Las estimaciones: La reducción excesiva del tamaño de la muestra condiciona las estimaciones y las comparaciones. o La capacidad de generalización de los resultados: lo que en principio era una muestra adecuada se convierte en inadecuada y no representativa. o Los rechazos: No llegaremos a saber si los que no han respondido son iguales a los que siguen un patrón. → Razones: o Temas delicados o No se garantiza el anonimato o la confidencialidad o La motivación para la participación en la encuesta o Desconocimiento o ignorancia o La construcción del cuestionario, es decir, la redacción de los ítems, categorías de respuesta, extensión... o Problemas de memoria (personas mayores, datos concretos del pasado, etc.) o Grabación de los datos, transformación de variables o La motivación y formación del profesional encargado de realizar las entrevistas → Estrategias para medir el grado de aleatoriedad: o Comprobar si los distintos segmentos presentan un porcentaje similar de falta de respuestas (Sexo, distrito, grupo de edad, …). 𝑥 2 o Comprobar si la falta de datos corresponde con alguna variable sociodemográfica o Identificar variables relacionadas y comprobar que los que responden y los que no, se comportan igual, que no hay diferencias estadísticamente significativas entre ambos grupos (Actitudes, percepciones, opiniones, …). T de Student Los resultados se pueden ver sesgados por el comportamiento de los encuestados, por ello es importante comprobar el grado de aleatoriedad de los datos missing. → Soluciones: o Utilizar únicamente los casos completos o Ponderar los casos: Calcular un coeficiente de ponderación para cada grupo, dividiendo el “n” o “cuota” teórica entre la real (usar varios decimales). Equilibraje. En el caso de un desajuste pequeño en la muestra (por ejemplo, menos chicas de las que debería) se puede hacer que valga más dicha variable (chicas) multiplicándola por un valor superior a 1. Si, por el contrario, el desajuste es grande y no se cuenta con datos o extensión de la muestra suficientes, se puede sustituir el objetivo del estudio (por ejemplo, si no se tienen datos suficientes de sujetos que realicen FP, se puede hacer el estudio centrados en ESO y Bach). o Completar el trabajo de campo (si el presupuesto económico y el tiempo lo permiten) o Métodos de sustitución: Dar a todos los datos missing el mismo valor Media/Mediana de la serie Media/Mediana de los puntos adyacentes o Métodos de imputación: Estimar los datos partiendo de las respuestas de variables relacionadas (mejor método) Interpolación lineal Tendencia lineal en el punto Media de subclases (Kalton) Esperanza maximización (EM) Fichero Caliente (Hot Deck): en función del perfil del sujeto asignar la respuesta mayoritaria del resto de sujetos con el mismo perfil. (Cualitativa) Regresión Lineal (cuantitativa) Casos Anómalos: → Datos que se salen de 50% central de los datos, es decir, aquellos que se disparan por encima del percentil 75 o por debajo de 25. Al tratarse de valores numéricos, puntuaciones, tan solo se dan en variables cuantitativas. Pueden introducir sesgos en la investigación, dependen de la sensibilidad o robustez de los estadísticos. Al existir datos anómalos debemos esperar que la media (estadístico poco robusto) este sesgada, por lo que debemos acudir a estadísticos resistentes o contrastes distintos a los habituales (mediana, media reducida, M-estimadores: Andrews, Huber, Tukey, Hampel), o contrastes no paramétricos (Mann-Whitney, Prueba de la Mediana, Kruskal-Wallis). → Tipos: o Outliers: ±1.5 - 3 IQR (O) o Extremos: ±3 IQR (*) Ambos se salen de la tendencia central (entre el percentil 25 y 75) de la distribución, pero los extremos sobresalen más que los outliers. → Bloxpot: gráfico que permite identificar los casos anómalos. El borde superior corresponde con el percentil 75 y el inferior con el p25. o Cuanto más grande la caja mayor variabilidad, cuanto más pequeña más homogénea es la muestra. o Representa la mediana, la tendencia central, con una banda negra. La posición de esta también nos informa de la simetría. Si está por debajo del centro indica asimetría positiva (los casos anómalos disparan la media a valores inferiores), si se encuentra por encima asimetría negativa (los casos anómalos disparan la media a valores altos). o Informa de la curtosis. Si los brazos son cortos y la caja grande es platicúrtica. Si los brazos son largos y la caja pequeña es mesocúrtica. EJEMPLO 1 EJEMPLO 2 P75 = 250 P75 = 300 P25 = 200 P25 = 220 ¿Una puntación de 291 es un extremo? ¿Una puntuación de 64 es un outlier? IQR: 50 (250 – 200 = 50) IQR: 80 (300 – 220 = 80) 50 x 3 = 150 80 x 1.5 = 120 200 + 150 = 350 200 – 120 = 100 350 > 291 ⇒ no es un extremo 100 > 64 ⇒ es un outlier EJEMPLO 3 EJEMPLO 4 P75 = 400 P75 = 280 P25 = 320 P25 = 180 ¿Una puntación de 18 es un extremo? ¿Una puntuación de 346 es un outlier? IQR: 80 (400 – 320 = 80) IQR: 100 (280 – 180 = 100) 80 x 3 = 240 100 x 1.5 = 150 320 - 240 = 80 280 + 150 = 430 80 > 18 ⇒ es un extremo 430 > 346 ⇒ no es un outlier Comprobación de supuesto: → Comprobar supuesto como el supuesto de normalidad, de aleatoriedad, de homogeneidad o de linealidad, para elegir la prueba estadística adecuada en cada caso, bien sean pruebas paramétricas o no paramétricas. → Ajuste a la normalidad: o Para saber que una variable sigue una distribución normal se puede aplicar la prueba de Lilliefors, con la corrección de K-S (Kolmogorov-Smirnov). Si la muestra es de menos de 30 sujetos se puede aplicar la corrección de Shapiro Wilk. Si el resultado de dichas pruebas dice que la variable no sigue una distribución normal la solución es, o bien transformar la variable (trabajando con el logaritmo, la raíz o el cuadrado de la variable), o bien buscar que prueba se puede aplicar sin el cumplimiento de normalidad, es decir, pruebas no paramétricas (técnicas multivariantes robustas) Covarianza y Correlación: → Covarianza: Medida no estandarizada de la relación entre dos variables cuantitativas (no está acotada). No permite conocer la magnitud de la relación. Sirve como paso previo antes de calcular la correlación, tan solo informa del signo de dicha relación. ∑ (𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌) 𝐶𝑜𝑣 (𝑋, 𝑌 ) = 𝑛 → Correlación: Medida no estandarizada de la relación de dos variables cuantitativas entre – 1 y 1. Permite conocer la magnitud de la relación. Es interpretables. ∑ (𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌) 𝑟𝑥𝑦 = (𝑛)𝜎𝑥 𝜎𝑦 Diagrama de dispersión/Recta de Regresión: → Diagrama de dispersión: Gráfico que permite analizar la distribución conjunta de dos variables cuantitativas x e y. Cada punto representa la puntuación de un sujeto en cada variable. Si la nube de puntos se ajusta a una recta entonces la correlación es directa. La orientación indica el signo (+/-) de la relación (de izquierda a derecha con pendiente positiva = signo +; de derecha a izquierda con pendiente negativa = -). La cercanía y concentración entre los puntos informa de la intensidad de la correlación. Regresión Lineal: La ecuación de regresión nos permite predecir una variable en función de la otra siguiendo la ecuación general de la recta. Técnica estadística multivariante de dependencia. Es lineal puesto que el gráfico de dispersión muestra una nube de puntos que tiene que similar una recta. Gracias a los predictores podemos predecir el valor de la VD → R. L. Simple: 𝑌 = 𝑎 + 𝑏𝑋 (Un solo predictor) → R. L. Múltiple: 𝑌 = 𝑎 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑛 𝑋𝑛 a = ordenada (lo que vale la variable dependiente para un valor nulo de la variable independiente). 𝑎 = 𝑌 − 𝑏𝑋 b = pendiente (lo que aumenta la variable dependiente cuando aumenta una unidad la variable independiente, es el peso que tiene la VI. en relación a la VD.) (Los valores de las b no son comparables puesto que los resultados están en escalas distintas, para ello existe b un valor estandarizado) 𝑏 = 𝜎 𝑟𝑥𝑦 𝜎𝑦 𝑥 Y= puntuación observable Y’= puntuación predicha Y-Y'= error de predicción Coeficiente de determinación: → 𝑅2 : Permite conocer la capacidad explicativa de la ecuación. Si se multiplica por 100 obtendremos el porcentaje (%) de varianza explicativa. Bondad de ajuste, lo bien que se aplica los resultados a la realidad. Explica cuán bien se ha predicho la variable. Lo ideal es tener un modelo, una ecuación de regresión con pocos predictores y pesos muy grandes, por lo que con poco expliquen mucho. Parsimonia