Tema 0: Repaso de Conceptos Básicos PDF

Summary

This document provides an introduction to the fundamental concepts of data analysis, focusing on the different types of variables (qualitative and quantitative) and their relationships. It details concepts like nominal and ordinal variables, as well as interval and ratio variables. It also covers the basics of covariance, a measure of the joint variability between two variables. 

Full Transcript

Bloque I: Introducción Tema 0: Repaso de conceptos básicos. Los conceptos que se repasarán en el siguiente tema, son conceptos ya revisados en la asignatura de análisis de datos: los tipos de variables, tipos de relaciones lineales, covarianza y varianza, etc. 1. Preliminares. Niveles de análisis...

Bloque I: Introducción Tema 0: Repaso de conceptos básicos. Los conceptos que se repasarán en el siguiente tema, son conceptos ya revisados en la asignatura de análisis de datos: los tipos de variables, tipos de relaciones lineales, covarianza y varianza, etc. 1. Preliminares. Niveles de análisis de las variables Un autor llamado Stevens en 1951 propuso una clasificación de las variables en función de principalmente dos criterios: si son cualitativas o cuantitativas. Las cualitativas, también llamadas categóricas porque son variables que se adscriben a categorías (incluyendo sus niveles), se pueden dividir a su vez en nominales u ordinales. - Nominales: los valores que adquieren estas variables indican una diferencia entre ellos y pueden adquirir valores aleatorios. P.ej: la variable sexo tiene dos valores (1 y 2 por ejemplo) y cada uno de esos valores hace referencia a un sexo (hombre o mujer). - Ordinales: los valores no solo indican diferencia entre ellos si no también una diferencia de grado o “superioridad”. P.ej: la variable clase social tiene tres valores (1, 2 y 3) que hacen referencia a las distintas clases sociales (baja, media o alta) claramente siento una de ellas de un rango superior. Dentro de las variables cuantitativas, también llamadas métricas o numéricas, nos encontramos las variables de intervalo y de razón. Ambas pueden ser o discretas (que solo pueden tomar valores enteros) o continuas (que pueden tomar un número infinito de valores, es decir, pueden tener decimales). - De intervalo: en ellas el 0 es un cero relativo ya que puede haber valores que estén por debajo del cero (negativos). P.ej: la temperatura. - De razón: el cero es un cero absoluto, no cabe la posibilidad de que existan números negativos. Son las que más información aportan. P.ej: el pero o la altura. Las de intervalo no sirven para hacer potencias, mientras que las de razón si. Por ejemplo, nosotros podemos decir que 10 cm son la mitad de 20 cm, pero no podemos decir que 10ºC es la mitad de 20ºC. Por otro lado, una misma variable puede ser tanto cuantitativa como cualitativa dependiendo de cómo obtenemos la información. Por ejemplo, si registramos la edad de nuestros sujetos y formamos grupos por rangos de edad, la edad sería una variable cualitativa (estamos formando categorías de edad), pero si registramos la edad de cada uno de nuestros sujetos porque nos interesa conocerla, estaríamos considerando la variable edad como cuantitativa. Tema 0: Repaso de conceptos básicos. 1 Bloque I: Introducción Pruebas estadísticas para conocer el grado de relación entre dos variables. La elección de las técnicas estadísticas se hace en función del nivel de análisis de las variables. Algunos ejemplos son: Cabe destacar que en estos ejemplos hablamos de grado de relación. La V de Cramér nos da información sobre qué tan intensa es la relación entre las variables y su valor está entre -1 ≤ 0 ≤ 1. Sin embargo, la Chi-cuadrado (recordar de análisis) nos da información sobre si la relación entre ambas es significativa, pero no que tan “grande” es la relación entre las variables. Relaciones entre variables cuantitativas. Pueden ser de muchos tipos: exponenciales, cuadráticas, lineales, etc. Pero en la asignatura nos centraremos en las más sencillas y comunes, las lineales. Existen 3 tipos: - Relación Lineal Directa (RLD): cuando a medida que aumenta el valor de Y también aumenta el valor de X. - Relación Lineal Inversa (RLI): cuando a medida que aumenta el valor de Y, disminuye el valor de X. - Relación Lineal Nula (RLN): cuando no hay una relación lineal sistemática entre las dos variables. Existen dos directrices para medir estas relaciones: la covarianza y la correlación. 2. Covarianza. La covarianza es la primera medida que trabaja con puntuaciones diferenciales (la diferencia entre la puntuación directa de cada sujeto y la media del conjunto de datos: 𝑥𝑖 = 𝑋𝑖 − 𝑋̅). La covarianza SXY calcula la media aritmética de los productos de las puntuaciones diferenciales de todos los pares de datos de una muestra en las dos variables X e Y: xi • yi . La fórmula sería la siguiente: Cabe destacar que en Psicometría se utiliza N 𝐶𝑂𝑉𝑋𝑌 = 𝑆𝑋𝑌 = ∑𝑁 𝑖=1 𝑥𝑖 . 𝑦𝑖 𝑁−1 = ̅ ̅ ∑𝑁 𝑖=1 (𝑋𝑖 −𝑋 ) · (𝑌𝑖 −𝑌 ) 𝑁−1 para referirse al número de sujetos (la muestra) y n para el número de ítems o variables. Tema 0: Repaso de conceptos básicos. 2 Bloque I: Introducción De esta fórmula original podemos derivar otras dos equivalentes, generalmente más operativas al utilizar puntuaciones directas. De esta forma, la covarianza también podría definirse como la media de los productos menos el producto de las medias: 𝑆𝑋𝑌 = ∑𝑁 𝑖=1 𝑋𝑖 . 𝑌𝑖 𝑁−1 - 𝑋̅ · 𝑌̅ 𝑆𝑋𝑌 = ̅̅̅̅ 𝑋𝑌 - 𝑋̅ · 𝑌̅ Varianza y covarianza. Son dos términos que se utilizan mucho en la estadística. Aunque suelen ser similares, hacen referencia a conceptos bastante diferentes. - Varianza: es la medida del grado de dispersión de una variable métrica (cuantitativa). Representa la variabilidad de una serie de datos respecto a su medida. Dos variables métricas con las misma medida pero en distinta unidad (p.ej: metros vs centímetros) dan lugar a distintas varianzas. - Covarianza: es la medida del grado de asociación entre dos variables métricas. Mide como los cambios en una variable se relacionan con cambios en la segunda variable. Lo que las hace semejantes es que la covarianza indica el grado de variación conjunta de dos variables métricas respecto de las dos medidas; es el valor a través del cual se refleja en que cuantía dos variables cualesquiera varían de forma conjunta (covarían) respecto a sus medidas aritméticas. La varianza, de hecho, es un caso particular de covarianza cuando dos variables aleatorias son idénticas. Interpretación de la covarianza. Cuando valores altos en una de las variables suelen mayoritariamente corresponderse con valores altos en la otra, la covarianza tendrá un valor positivo. Por el contrario, cuando los valores altos de una de las variables se corresponden con valores bajos en la otra, la covarianza será negativa. En consecuencia, la covarianza es un índice para la medida de la relación lineal entre dos variables cuantitativas, que ofrece información sobre: A. Si existe o no relación lineal entre las dos variables X e Y. B. Cuál es la dirección de la relación (directa o inversa): - Directa: SXY > 0 - Inversa: SXY < 0 - Incorrelada: SXY = 0 Mas, la covarianza tiene una limitación: no informa sobre la intensidad de la relación existente entre las variables. Las puntuaciones diferenciales están en función de cómo se miden las variables, por lo que si medimos la misma variable de diferente forma, la covarianza seguirá siendo positiva/inversa pero su valor será distinto. Tema 0: Repaso de conceptos básicos. 3 Bloque I: Introducción 3. Correlación. El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables métricas. Se define como la media del producto de las puntuaciones típicas de dos variables. Es similar a la covarianza, pero calculada con puntuaciones tipificadas. Este índice de asociación entre dos variables se desarrolló por Pearson en 1896, se representa con la letra r y su formulación es la siguiente: 𝑟𝑋𝑌 = ∑𝑁 𝑖=1 𝑍𝑥𝑖 ∙ 𝑍𝑦𝑖 𝑁 Otra fórmula más sencilla implica previamente calcular la covarianza y las desviaciones típicas: 𝑟𝑋𝑌 = 𝑆𝑋𝑌 𝑆𝑋 ∙𝑆𝑌 ∑(𝑋−𝑋̅)2 recordando que 𝑆𝑋 = √ 𝑵−𝟏 Aunque existen más formas de desarrollar la fórmula, las más utilizada (por lo práctica que es) es la anterior. Propiedades de r. - Es adimensional, carece de unidades de medida. - Es una medida estandarizada, invariante para transformaciones lineales de las variables (temperatura, peso, altura, etc..). Su valor es independiente de las unidades de medida de las variables comparadas. - Solo toma valores entre -1 y +1, lo que permite comparar diversos r y mismo conocer la intensidad o magnitud de la relación entre las variables. - El signo positivo o negativo informa sobre el sentido o dirección de la relación: directa o inversa. - Cuando r esté próximo a ±1, existirá una relación lineal muy fuerte entre las variables. - Cuando r ≈ 0, puede afirmarse que no existe relación lineal entre ambas variables. Las variables están linealmente incorreladas. Aunque sí que pueden existir otro tipo de relaciones. Interpretación de r. La escala [-1,1] no toma valores constantes, lo que significa que por ejemplo 0.8 no es el doble de 0.4. Para hacernos una idea más atinada del grado de asociación hay que elevar el índice al cuadrado (coeficiente de Tema 0: Repaso de conceptos básicos. 4 Bloque I: Introducción determinación o R2), lo que nos permite conocer el grado de covarianza o varianza común entre las variables: un r2 de 0.64 se corresponde con una varianza común del 16%. A la hora de interpretar un índice concreto, debemos tener en cuenta lo siguiente: - Significación estadística: descartar que la relación encontrada no se debe al azar. No tiene que estar necesariamente relacionada con la intensidad. - Dirección o sentido de la correlación (+ o –). - La cuantía o intensidad está en función de la: • Variabilidad del grupo. La +homogeneidad, – variabilidad y por lo tanto – correlación. Por ej., una correlación entre rendimiento y CI general será mayor que una entre rendimiento y alumnos con CI > 110. • Naturaleza de las variables. Un coeficiente de 0,40 entre peso y CI podría considerarse insospechado y altísimo; el mismo valor obtenido entre dos tests distintos que miden memoria sería seguramente despreciable. • Área científica. Conviene conocer las magnitudes con las que se trabaja en cada ámbito de estudio. A pesar de que se utilizan distintas formas para interpretar el tamaño del efecto, en psicometría se utiliza una interpretación más restrictiva basada en el coeficiente de determinación propuesta por Fox en 1981: - ± 0,50 o menos: correlación baja (< 25% de varianza común). - ± 0,50 a ± 0,70: correlación moderada (25% a 50% de varianza común). - ± 0,70 a ± 0,86: correlación alta (50% a 75% de varianza común). - ± 0,86 o más: correlación muy alta (+ del 75% de varianza común). ¿QUÉ NO MIDE R? - La magnitud de la pendiente o tasa de cambio. - El modelo lineal. - No permite establecer relaciones de causalidad ni de dependencia entre variables 4. Regresión lineal simple. Al igual que la correlación, la regresión lineal es un método estadístico que estudia la relación lineal que existe entre dos variables métricas. Pero la regresión va un paso más allá, tratando de construir un modelo estadístico que permita predecir, mediante una recta, el valor de una de las variables cuantitativas en función de la otra. Posibilita ahondar en el conocimiento científico relativo a variables sociales de tipo métrico. Un modelo estadístico es una ecuación matemática que nos va a permitir representar la complejidad de la realidad de cualquier fenómeno social de una manera el más parsimonioso posible, es decir, sencillo a la par que preciso. Tienen un grano poder predictivo y explicativo, ya que explican los datos con un número mínimo de parámetros o variables predictoras. Tema 0: Repaso de conceptos básicos. 5 Bloque I: Introducción En definitiva, el Análisis de Regresión posibilita: - Explicar la realidad que envuelve a las variables intervinientes de una manera el más sencillo posible. - Predecir el resultado de una de las variables en función de la(s) otra(s). Los procedimientos que venimos hasta ahora (covarianza, correlación, etc.) trataban de poner en relación una variable cuantitativa con otra, sin más; son técnicas de interdependencia. Las técnicas basadas en relaciones de interdependencia no establecen ninguna distinción de dependencia entre variables y su objetivo principal es fundamentalmente descriptivo: busca de regularidades en los datos para resumirlos y organizarlos de manera que sean más manejables y comprensibles. La teoría determina las variables a incluir, pero no especifica la precisa fórmula funcional que las relaciona. El Análisis de Regresión intenta predecir una única variable (que se denomina variable criterio o Variable Dependiente, VD, Y) a partir de otra u otras diferentes (denominadas variables predictoras o Variables Independientes, VI, X). Es por esto que se dicen que el Análisis de Regresión es una técnica de dependencia. Las técnicas de dependencia tienen una finalidad explicativa: El conocimiento previo permite suponer relaciones causales entre las variables, por lo que el investigador formula un modelo de dependencia y recurre al análisis empírico para probar la bondad de ajuste de los datos al modelo establecido. MODELO DE REGRESIÓN. *¿Por qué no se utiliza el ANOVA para la regresión? Porque en la regresión las variables deben ser cuantitativas. Con el ANOVA las variables pueden ser cualitativas. Cuando utilizamos el ANOVA queremos conocer la significación de la relación entre una variable cuantitativa y otra cualitativa. El modelo de regresión lineal simple tiene la siguiente expresión: 𝑌 = 𝛼 + 𝛽𝑋 + ε - 𝛼 (a veces denotada cómo 𝛽0) es lo intercepto (el valor que toma Y cuando X bono 0), - 𝛽 (también llamada 𝛽1) es la pendiente de la recta e indica como cambia Y al incrementar X en una unidad. Es también una medida de la importancia o influencia relativa que tiene X para predecir Y. Cuanta ↑ 𝛽0, ↑ peso o influencia sobre Y. Tema 0: Repaso de conceptos básicos. 6 Bloque I: Introducción - ε es el error aleatorio, que recoge la variabilidad en Y que no se puede explicar con la relación lineal entre X y Y. También se denomina residuo. - X y Y son variables aleatorias, por lo que no se puede establecer una relación lineal exacta entre ellas. Para hacer una estimación de este modelo, trataremos de buscar una recta que se ajuste lo mejor posible a la nube de puntos, llamada recta de regresión de Y sobre X: 𝑌´ = 𝑎 + 𝑏X. - 𝑌´ es el valor estimado de 𝑌 para un valor específico de 𝑋. Los parámetros 𝛼 y 𝛽 se estiman mediante los estadísticos 𝑎 y 𝑏. El método de estimación más utilizado es lo de mínimos cuadrados que consiste en minimizar la suma de los cuadrados de los errores. Se obtienen así las siguientes expresiones: 𝑎 = 𝑌̅ − 𝑏𝑋̅ 𝑏= 𝑆𝑋𝑌 2 𝑆𝑋 = ∑ 𝑥𝑦 ∑ 𝑥2 (Añadir apuntes diapos) BONDAD DE AJUSTE DEL MODELO (COEFICIENTE DE DETERMINACIÓN). Una cosa es obtener la recta que mejor se ajusta a un conjunto de datos y otra cosa es que ese ajuste sea bueno o malo: Para evaluar la bondad de ajuste del modelo se utiliza el coeficiente R 2 (coef. de determinación) que, para el caso de la regresión lineal simple, equivale al coeficiente de correlación al cuadrado: R 2 = r2. El coeficiente de determinación puede interpretarse como la proporción de variabilidad de Y que es explicada por X. Tema 0: Repaso de conceptos básicos. 7

Use Quizgecko on...
Browser
Browser