Tema 4. Asociacion entre dos variables.pptx

Full Transcript

Tema 4: Asociación entre dos variables Pablo Fernández Cáncer Pablo Nájera Álvarez Índice 1. Introducción 2. Correlación de Pearson a. El diagrama de dispersion b. El coeficiente de correlación c. El contraste sobre la correlación 3. Prueba de independencia a. La table de contingencia b. El estad...

Tema 4: Asociación entre dos variables Pablo Fernández Cáncer Pablo Nájera Álvarez Índice 1. Introducción 2. Correlación de Pearson a. El diagrama de dispersion b. El coeficiente de correlación c. El contraste sobre la correlación 3. Prueba de independencia a. La table de contingencia b. El estadístico c. La prueba de independencia d. Medidas de asociación Introducción En este tema nos vamos a centrar en estudiar contrastes estadísticos que evalúan: - La existencia (o no) de relación entre dos variables - La magnitud de dicha relación Dos variables son independientes si el valor de una de ellas no aporta información sobre el valor de la otra. Dos variables están relacionadas si el valor de una de ellas aporta información sobre el valor de la otra (permite predecirla en cierta medida) Vamos a ver dos contrastes estadísticos: • Correlación de Pearson: Para evaluar la relación entre 2 variables continuas • Prueba de independencia: Para evaluar la relación entre 2 variables categóricas La correlación de Pearson La correlación de Pearson permite evaluar la existencia y la magnitud de relación lineal entre 2 variables continuas. Las variables no tienen por qué estar en la misma métrica Lá relación puede ser de 3 tipos: • Relación lineal positiva: valores altos (o bajos) en X se acompañan de valores altos (o bajos) en Y • Relación lineal negativa: valores altos en X se acompañan de valores bajos en Y (y viceversa) • Relación lineal nula: valores altos (o bajos) en X se acompañan de valores tanto altos como bajos en Y. El diagrama de dispersión El diagrama de dispersión permite evaluar visualmente el grado de relación (no sólo relación lineal) entre dos variables continuas. Relación lineal positiva Relación nula Relación lineal negativa El diagrama de dispersión El diagrama de dispersión permite evaluar visualmente el grado de relación (no sólo relación lineal) entre dos variables continuas. Relación cuadrática Relación cúbica Relación ¿? El coeficiente de correlación El coeficiente de correlación () es un estadístico que permite resumir, de manera cuantificable y objetiva, el grado de relación lineal entre dos variables continuas. Su valor oscila entre -1 (relación lineal negativa perfecta) y +1 (relación lineal positiva perfecta), siendo 0 la ausencia total de relación lineal. El valor de tiene que ver con la pendiente de la recta en el diagrama de dispersión. Esta recta se llama recta de regresión. 𝒓 𝑿𝒀 >𝟎 Relación lineal positiva 𝒓 𝑿𝒀 = 𝟎 Relación nula 𝒓 𝑿𝒀 <𝟎 Relación lineal negativa El coeficiente de correlación El coeficiente de correlación puede entenderse como una medida de tamaño del efecto que informa sobre la magnitud de la relación lineal. En psicología, Cohen (1988) sugiere unos puntos de corte orientativos. • Relación lineal leve: • Relación lineal moderada: • Relación lineal elevada: 𝒓 𝑿𝒀 >𝟎 Relación lineal positiva 𝒓 𝑿𝒀 = 𝟎 Relación nula 𝒓 𝑿𝒀 <𝟎 Relación lineal negativa El cálculo del coeficiente de correlación El cálculo del coeficiente de correlación se basa en la siguiente lógica: 1. Considerar la covariación entre las dos variables: covarianza () 2. Normalizar (tipificar) la covarianza para situarla en una métrica de -1 a 1. Varianza Covarianza 𝑛 𝑛 1 2 𝑆 = 𝑋𝑖− 𝑋 ) ∑ ( 𝑛−1 𝑖=1 2 𝑋 1 𝑆 𝑋𝑌 = 𝑋 𝑖 − 𝑋 )( 𝑌 𝑖 −𝑌 ) ∑ ( 𝑛−1 𝑖=1 Correlación 𝑟 𝑋𝑌 = 𝑆 𝑋𝑌 2 𝑋 √𝑆 √𝑆 2 𝑌 = 𝑆 𝑋𝑌 𝑆 𝑋 𝑆𝑌 El cálculo del coeficiente de correlación Empecemos primero con la varianza. i Notas Mates (X) Notas Física (Y) 1 8 9 2 6 5 3 7 8 4 9 7 5 5 6 Varianza DT 1.58 1.58 Varianza de X 𝑛 1 2 2 𝑆 𝑋= 𝑋 − 𝑋 ∑ ( ) 𝑖 𝑛−1 𝑖=1 Media 7 7 2 2 𝑋 𝑆 = 𝑆 2 2 = 2 5−1 2 2 𝑋 2 ( 8− 7 ) + ( 6 − 7 ) + ( 7 − 7 ) + ( 9− 7 ) + ( 5 − 7 ) 2 2 2 ( 1) +( − 1 ) +( 0 ) +( 2) + ( − 2 ) 𝑆2 = 𝑋 2 4 1 +1+0+ 4+ 4 10 = =2.5 4 4 La varianza es un resumen de las desviaciones (al cuadrado) con respecto a la media. No puede tomar valores negativos. El cálculo del coeficiente de correlación Y ahora calculemos la covarianza i Notas Mates (X) Notas Física (Y) 1 8 9 2 6 5 3 7 8 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 𝑛 Covarianza 𝑆 𝑋𝑌 = 1 𝑋 𝑖 − 𝑋 )( 𝑌 𝑖 −𝑌 ) ∑ ( 𝑛−1 𝑖=1 Covarianza entre X e Y 𝑆 𝑋𝑌 = ( 8− 7 ) ( 9− 7 ) + ( 6 − 7 ) ( 5 − 7 ) + ( 7 − 7 ) ( 8 − 7 ) + ( 9 − 7 )( 7 − 7 ) +( 5− 7)(6 − 7) 𝑆 𝑋𝑌 = 4 ( 1 ) ( 2 ) + ( − 1 ) ( − 2 ) + ( 0 ) ( 1 ) + ( 2 )( 0 ) +( − 2)(− 1) 4 = 2 +2+0+0 +2 6 = = 1.5 4 4 La covarianza indica si las variables tienden a cambiar (o variar) en la misma dirección (relación positiva), la opuesta (relación negativa o inversa), o si varían de forma independiente (relación nula). El cálculo del coeficiente de correlación La covarianza podría considerarse un resumen del grado en que las desviaciones en una variable (X) coinciden con las desviaciones en la otra variable (Y). • Covarianza nula (): Se da cuando las desviaciones positivas en una variable se acompañan de desviaciones positivas en la otra variable en algunas personas, y de desviaciones negativas en otras personas. Así, al sumarlas en la fórmula se anulan y dan 0 (o un valor cercano a 0). • Covarianza positiva (): Se da cuando las desviaciones positivas (o negativas) en una variable se acompañan de desviaciones positivas (o negativas) en la otra. • Covarianza negativa (): Se da cuando las desviaciones positivas en una variable se acompañan de desviaciones negativas en la otra. El cálculo del coeficiente de correlación El “problema” que tiene la covarianza es que no es interpretable. Por ejemplo, antes hemos obtenido una covarianza de 1,5. ¿Eso es mucho o poco? Observad lo que ocurriría si cambiáramos la métrica de las variables: i Notas Mates (X) Notas Física (Y) 1 8 9 𝑆 i Notas Mates (X) Notas Física (Y) 1 80 90 𝑆 2 6 5 3 7 8 𝑋𝑌 2 60 50 𝑋𝑌 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 5 50 60 Media 70 70 DT 15.8 15.8 =1.5 3 70 80 4 90 70 =150 La covarianza es mayor en el segundo caso, pero la relación no es más intensa. El cálculo del coeficiente de correlación La covarianza es distinta en cada caso, aunque la relación entre las variables sea la misma, porque es dependiente de la métrica. Para saber si la relación entre dos variables es alta o baja, debemos usar la correlación. La correlación es la covarianza estandarizada (o tipificada). Es decir, la covarianza dividida entre las desviaciones típicas de las dos variables (X e Y). Al hacer esto, obtengo un indicador de la correlación entre dos variables que va desde hasta , independientemente de la métrica de las variables. El cálculo del coeficiente de correlación i Notas Mates (X) Notas Física (Y) 1 8 9 2 6 5 𝑟 𝑋𝑌 = 3 7 8 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 1.5 =𝟎. 𝟔 1.58 × 1.58 La correlación también nos indica si las desviaciones (o “variaciones”) en una variable coinciden más o menos con las desviaciones (o “variaciones”) en la otra. Es decir, nos indica cuanta varianza tienen en común. Esta “varianza común” se puede obtener a modo de porcentaje elevando la correlación al cuadrado. La matriz de covarianzas y de correlaciones i Notas Mates (X) Notas Física (Y) Matriz de covarianzas X Y X 2.5 1.5 Y 1.5 2.5 Matriz de correlaciones X Y X 1 0.6 Y 0.6 1 1 8 9 2 6 5 3 7 8 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 Cuando analicéis covarianzas, Jamovi os dará una matriz. Aquí estarán las varianzas en la diagonal y las covarianzas fuera de la diagonal. También podéis pedirle a Jamovi una matriz de correlaciones, donde la correlación de cada variable consigo misma es 1, y fuera de la diagonal os aparecen las correlaciones entre unas variables y otras. La matriz de covarianzas y de correlaciones i Notas Mates (X) Notas Física (Y) 1 8 9 2 6 5 3 7 8 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 Matriz de covarianzas X Y X 2.5 1.5 Y 1.5 2.5 En realidad, aquí todo son covarianzas, ya que la covarianza de una variable consigo misma es precisamente la varianza. Esto se ve mejor en la matriz de correlaciones. Matriz de correlaciones X Y X 1 0.6 Y 0.6 1 Recordemos que la correlación al cuadrado nos indica el porcentaje de varianza que comparten dos variables. ¿Cuanta varianza comparte una variable consigo misma? Toda, es la misma variable. Por eso tiene correlación de 1 consigo misma, porque comparte el 100% de la varianza consigo misma. La importancia de las contribuciones individuales i Notas Mates (X) Notas Física (Y) 1 8 9 𝑟 𝑋𝑌 =𝟎 . 𝟔 2 6 5 3 7 8 4 9 7 5 5 6 Media 7 7 DT 1.58 1.58 Vemos que el coeficiente de correlación de Pearson coincide con lo que se ve en el gráfico de dispersión (relación positiva). Un aspecto a tener en cuenta es que estos coeficientes (covarianzas, correlaciones...) se calculan multiplicando las desviaciones de cada persona y luego sumándolas. Por tanto representan tendencias generales a nivel muestral. NO todas las personas tienen por qué compartir esta tendencia. Supongamos que entra una persona más en la muestra que tiene un 1 en mates y un 9 en física. La importancia de las contribuciones individuales i Notas Mates (X) Notas Física (Y) 1 8 9 𝑟 𝑋𝑌 =𝟎 . 𝟔 2 6 5 3 7 8 4 9 7 5 5 6 6 1 9 Media 7 7 DT 1.58 1.58 𝑟 𝑋𝑌 =− 𝟎. 𝟏𝟕 La recta de regresión se traza por el lugar que minimice las distancias al cuadrado a los puntos. La importancia de las contribuciones individuales Esto ocurre porque la correlación se calcula sumando las contribuciones individuales de todos los sujetos. Si una contribución es muy extrema, puede alterar los resultados y llevarnos a conclusiones sesgadas. Con tamaños muestrales más altos, el peso relativo de este outlier se verá disminuido, y su presencia no afectaría tanto al resultado. En la práctica habría que valorar si eliminar a esta persona de la base de datos o no. Quizá se deba a un error (alguien puso 1 en lugar de 10) Ejemplos de correlaciones 𝑟 𝑋𝑌 =1 𝑟 𝑋𝑌 =0,69 𝑟 𝑋𝑌 =0,01 𝑟 𝑋𝑌 =−0,72 𝑟 𝑋𝑌 =− 1 Diagrama de dispersión y coeficiente de correlación La importancia de complementar el diagrama de dispersión y el coeficiente de correlación: • Cuando sólo tenemos el diagrama de dispersión: http://guessthecorrelation.com/ • Cuando sólo tenemos el coeficiente de correlación: 𝒓 𝑿𝒀 =𝟎 , 𝟖𝟒 Tomado de Análisis de datos en ciencias sociales y de la salud: Volumen 1 (2ª Ed.) La paradoja de Simpson La paradoja de Simpson se da cuando dos variables parecen tener una correlación en una dirección (positiva o negativa), pero esta dirección se revierte cuando se tiene en cuenta una tercera variable. Por ejemplo, se ha encontrado una correlación negativa y muy elevada () entre tiempo dedicado al estudio y las puntuaciones en los exámenes. ¿Cómo es esto posible? Tomado de https://www.sisense.com/blog/understanding-simpsons-paradox-to-avoid-faulty-conclusions/ La paradoja de Simpson La paradoja de Simpson se da cuando dos variables parecen tener una correlación en una dirección (positiva o negativa), pero esta dirección se revierte cuando se tiene en cuenta una tercera variable. Por ejemplo, se ha encontrado una correlación negativa y muy elevada () entre tiempo dedicado al estudio y las puntuaciones en los exámenes. ¿Cómo es esto posible? Tomado de https://www.sisense.com/blog/understanding-simpsons-paradox-to-avoid-faulty-conclusions/ El contraste sobre la correlación 1. Las hipótesis • Contraste bilateral: ¿Están las dos variables relacionadas linealmente? ¿Son las dos variables independientes? ¿Existe relación lineal entre las dos variables? • Contraste unilateral derecho: ¿Existe una relación lineal positiva entre las dos variables? • Contraste unilateral izquierdo: ¿Existe una relación lineal negative entre las dos variables? El contraste sobre la correlación 2. Los supuestos • Muestra aleatoria de n pares de observaciones independientes de las variables X e Y • Distribución normal de las variables X e Y* *El supuesto de normalidad pierde importancia a medida que n aumenta * Si la muestra es pequeña y el supuesto de distribución normal no se cumple, o si estamos correlacionando variables en escala ordinal, utilizaremos la correlación de Spearman. Veremos cómo usarla en Jamovi. El contraste sobre la correlación 3. El estadístico de contraste y su distribución El estadístico de contraste consiste en una transformación de para poder conocer su distribución: El contraste sobre la correlación 4. Valor p y puntos críticos • Valor p: consultar en la tabla estadística de la distribución t o en esta web o Contraste bilateral: o Contraste unilateral derecho: o Contraste unilateral izquierdo: • Puntos críticos: consultar en la tabla estadística de la distribución t o en esta web o Contraste bilateral: y o Contraste unilateral derecho: o Contraste unilateral izquierdo : El contraste sobre la correlación 5. Decisión sobre • Si o cae en la zona de rechazo  rechazar : las dos variables están relacionadas linealmente en la población • Si o cae en la zona de aceptación  mantener : no hay evidencia de que las dos variables estén relacionadas linealmente en la población * Si el contraste es unilateral derecho, podremos concluir si existe o no relación lineal positiva entre ambas variables * Si el contraste es unilateral izquierdo, podremos concluir si existe o no relación lineal negativa entre ambas variables El contraste sobre la correlación Un grupo de psicólogos quiere evaluar si existe relación entre el rasgo de neuroticismo (X) y las horas de sueño (Y). Concretamente, sospechan que, a más neuroticismo, menos horas de sueño. Para ello extraen una muestra aleatoria de 20 personas a las que administran un cuestionario de personalidad. Además, les pide que, durante dos semanas, registren el número de horas que duermen para posteriormente calcular el promedio de horas de sueño. Encuentran los siguientes resultados: , y . Empleando , ¿a qué conclusión podemos llegar? 1. Hipótesis: 2. Supuestos: 3. Estadístico de contraste: 4. Valor p: 5. Decisión sobre : El contraste sobre la correlación Un grupo de psicólogos quiere evaluar si existe relación entre el rasgo de neuroticismo (X) y las horas de sueño (Y). Concretamente, sospechan que, a más neuroticismo, menos horas de sueño. Para ello extraen una muestra aleatoria de 20 personas a las que administran un cuestionario de personalidad. Además, les pide que, durante dos semanas, registren el número de horas que duermen para posteriormente calcular el promedio de horas de sueño. Encuentran los siguientes resultados: , y . Empleando , ¿a qué conclusión podemos llegar? 1. Hipótesis: (contraste unilateral izquierdo) 2. Supuestos: 3. Estadístico de contraste: 4. Valor p: 5. Decisión sobre : El contraste sobre la correlación Un grupo de psicólogos quiere evaluar si existe relación entre el rasgo de neuroticismo (X) y las horas de sueño (Y). Concretamente, sospechan que, a más neuroticismo, menos horas de sueño. Para ello extraen una muestra aleatoria de 20 personas a las que administran un cuestionario de personalidad. Además, les pide que, durante dos semanas, registren el número de horas que duermen para posteriormente calcular el promedio de horas de sueño. Encuentran los siguientes resultados: , y . Empleando , ¿a qué conclusión podemos llegar? 1. Hipótesis: (contraste unilateral izquierdo) 2. Supuestos: muestra aleatoria de 14 pares independientes; normalidad de X e Y 3. Estadístico de contraste: 4. Valor p: 5. Decisión sobre : El contraste sobre la correlación Un grupo de psicólogos quiere evaluar si existe relación entre el rasgo de neuroticismo (X) y las horas de sueño (Y). Concretamente, sospechan que, a más neuroticismo, menos horas de sueño. Para ello extraen una muestra aleatoria de 20 personas a las que administran un cuestionario de personalidad. Además, les pide que, durante dos semanas, registren el número de horas que duermen para posteriormente calcular el promedio de horas de sueño. Encuentran los siguientes resultados: , y . Empleando , ¿a qué conclusión podemos llegar? 1. Hipótesis: (contraste unilateral izquierdo) 2. Supuestos: muestra aleatoria de 14 pares independientes; normalidad de X e Y 3. Estadístico de contraste: 4. Valor p: 5. Decisión sobre : El contraste sobre la correlación Un grupo de psicólogos quiere evaluar si existe relación entre el rasgo de neuroticismo (X) y las horas de sueño (Y). Concretamente, sospechan que, a más neuroticismo, menos horas de sueño. Para ello extraen una muestra aleatoria de 20 personas a las que administran un cuestionario de personalidad. Además, les pide que, durante dos semanas, registren el número de horas que duermen para posteriormente calcular el promedio de horas de sueño. Encuentran los siguientes resultados: , y . Empleando , ¿a qué conclusión podemos llegar? 1. Hipótesis: (contraste unilateral izquierdo) 2. Supuestos: muestra aleatoria de 14 pares independientes; normalidad de X e Y 3. Estadístico de contraste: 4. Valor p: 5. Decisión sobre : El contraste sobre la correlación Un grupo de psicólogos quiere evaluar si existe relación entre el rasgo de neuroticismo (X) y las horas de sueño (Y). Concretamente, sospechan que, a más neuroticismo, menos horas de sueño. Para ello extraen una muestra aleatoria de 20 personas a las que administran un cuestionario de personalidad. Además, les pide que, durante dos semanas, registren el número de horas que duermen para posteriormente calcular el promedio de horas de sueño. Encuentran los siguientes resultados: , y . Empleando , ¿a qué conclusión podemos llegar? 1. Hipótesis: (contraste unilateral izquierdo) 2. Supuestos: muestra aleatoria de 14 pares independientes; normalidad de X e Y 3. Estadístico de contraste: 4. Valor p: 5. Decisión sobre : como , rechazamos y concluimos que sí existe una relación lineal negativa entre neuroticismo y las horas de sueño. Coeficiente de correlación de Spearman La correlación de Spearman es la alternativa no paramétrica a la correlación de Pearson. Se usa en su lugar cuando no se cumple el supuesto de normalidad. Esto es habitual en: - Variables ordinales - Variables cuantitativas con pocos valores únicos (que están en el límite entre las ordinales y las cuantitativas) (ej. número de hijos) - Cualquier variable cuantitativa que no se distribuyan de forma normal (ej. número de hijos) Se interpreta exactamente igual que la correlación de Pearson. La veremos en Jamovi. El contraste sobre la correlación ¡Correlación no es causalidad! Se ha visto repetidamente que, en niños de entre 6 y 12 años, existe una correlación altísima entre el tamaño del pie y el cociente intelectual. ¿El tamaño del pie tiene un efecto causal sobre la inteligencia? Tamaño del pie Inteligencia El contraste sobre la correlación ¡Correlación no es causalidad! Se ha visto repetidamente que, en niños de entre 6 y 12 años, existe una correlación altísima entre el tamaño del pie y el cociente intelectual. ¿El tamaño del pie tiene un efecto causal sobre la inteligencia? Tamaño del pie Inteligencia Crecimiento El contraste sobre la correlación ¡Correlación no es causalidad! Se ha visto repetidamente que, en niños de entre 6 y 12 años, existe una correlación altísima entre el tamaño del pie y el cociente intelectual. ¿El tamaño del pie tiene un efecto causal sobre la inteligencia? https://tylervigen.com/spurious-correlation s La prueba de independencia La prueba X2 de independencia permite evaluar la existencia de relación (o de no independencia) entre 2 variables categóricas. También se conoce como prueba de bondad de ajuste o prueba X2 de Pearson Las variables pueden tener 2 o más categorías Para evaluar la magnitud de la relación (tamaño del efecto) usaremos medidas de asociación Para poder interpretar cómo es la relación, usaremos residuos estandarizados corregidos La tabla de contingencia La tabla de contingencia permite describir dos variables categóricas conjuntamente Queremos estudiar si existe alguna relación el tipo de alimentación y la incidencia de enfermedades cardiovasculares. Para eso, recogemos una muestra aleatoria de 300 personas y estudiamos su distribución en cada una de las categorías posibles con una tabla de contingencia: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí 12 16 32 60 No 88 84 68 240 Total 100 100 100 300 La tabla de contingencia La tabla de contingencia permite describir dos variables categóricas conjuntamente Queremos estudiar si existe alguna relación el tipo de alimentación y la incidencia de enfermedades cardiovasculares. Para eso, recogemos una muestra aleatoria de 300 personas y estudiamos su distribución en cada una de las categorías posibles con una tabla de contingencia: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Sí 12 16 32 60 No 88 84 68 240 Total 100 100 100 300 Frecuencias conjuntas Total La tabla de contingencia La tabla de contingencia permite describir dos variables categóricas conjuntamente Queremos estudiar si existe alguna relación el tipo de alimentación y la incidencia de enfermedades cardiovasculares. Para eso, recogemos una muestra aleatoria de 300 personas y estudiamos su distribución en cada una de las categorías posibles con una tabla de contingencia: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Sí 12 16 32 60 No 88 84 68 240 Total 100 100 100 300 Frecuencias conjuntas Frecuencias marginales Total La tabla de contingencia Notación de las tablas de contingencia Y X 1 2 … 1 … 2 … … … … … I … Total … J Total … … Las dimensiones de la tabla de contingencia hacen referencia al número de filas y el número de columnas: La tabla de contingencia Porcentajes relativos al total () Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí 4% 5,3% 10,7% 20% No 29,3% 28% 22.7% 80% Total 33.3% 33.3% 33.3% 100% Probabilidad de sucesos independientes En teoría de la probabilidad, dos sucesos son independientes si la probabilidad de que ambos ocurran simultáneamente es igual al producto de las probabilidades de que ocurra cada uno de ellos por separado: Si tiramos una moneda dos veces, ¿cuál es la probabilidad de obtener dos caras? C C X C X X Probabilidad de sucesos independientes En teoría de la probabilidad, dos sucesos son independientes si la probabilidad de que ambos ocurran simultáneamente es igual al producto de las probabilidades de que ocurra cada uno de ellos por separado: Por ejemplo, si tiro un dado, la probabilidad de que salga el número 4 (o cualquier otro) es de 1/6. ¿Y si os dijera que he tirado 10 veces el dado antes y ha salido el número 4 todas ellas? ¿Cuál sería la probabilidad de sacar 4 ahora? Probabilidad de sucesos independientes En teoría de la probabilidad, dos sucesos son independientes si la probabilidad de que ambos ocurran simultáneamente es igual al producto de las probabilidades de que ocurra cada uno de ellos por separado: Respuesta: La probabilidad de sacar el número 4 otra vez seguiría siendo 1/6, porque cada vez que se tira el dado es un evento independiente de los anteriores. Los eventos que ya han ocurrido (haber tirado el dado 10 veces antes) no condicionan la probabilidad de las futuras tiradas de dado. Otra cosa es que yo diga: “voy a sacar 10 veces el número 4”. La probabilidad de esto sería . Independencia en variables categóricas La probabilidad de sucesos independientes nos interesa porque la vamos a necesitar para saber si dos variables categóricas están relacionadas. Pensad que vamos a tener que contrastar dos hipótesis: Independencia en variables categóricas Para contrastar esta hipótesis vamos a comparar dos tablas de frecuencias: - La tabla de frecuencias observada (representando a ) - La tabla de frecuencias esperada bajo el supuesto de que X e Y son independientes (representando a ) Tabla de frecuencias observada VS Tabla de frecuencias esperada Independencia en variables categóricas Lo primero que tenemos que hacer es construir esa tabla de frecuencias esperada (bajo el supuesto de independencia). Para ello me tengo que preguntar, ¿cómo deberían distribuirse las frecuencias por la tabla si el tipo de dieta no tuviera nada que ver con la presencia de enfermedad cardiovascular? Para calcular esto, partimos de la tabla que sólo tiene frecuencias marginales. Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí 60 No 240 Total 100 100 100 300 Independencia en variables categóricas Transformamos las frecuencias en porcentajes: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí 20% No 80% Total 33.3% 33.3% 33.3% 100% Independencia en variables categóricas Y de porcentajes a proporciones: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí 0.200 No 0.800 Total 0.333 0.333 0.333 1 Estas proporciones pueden interpretarse como probabilidades. Si tomamos una muestra en la que el 20% de la gente tiene enfermedad y el 80% no la tiene, podemos decir que la probabilidad de encontrarnos una persona sin enfermedad en esa muestra es de 0.20, y la probabilidad de encontrarnos una persona con enfermedad es 0.80. Independencia en variables categóricas Ahora, usamos la fórmula del cálculo de probabilidades de sucesos independientes: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí 0.200 No 0.800 Total 0.333 0.333 0.333 Lo que estamos haciendo es calcular la probabilidad de encontrarnos personas con cada combinación de niveles de las dos variables, si las dos variables fueran independientes. 1 Independencia en variables categóricas Tras aplicar la fórmula para cada casilla, la tabla nos queda así: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí 0.200 No 0.800 Total 0.333 0.333 0.333 Estas proporciones representan la probabilidad de encontrarse a una persona con cada combinación de niveles de las dos variables, bajo el supuesto de que son independientes. Ahora transformémoslo de vuelta a frecuencias... 1 Independencia en variables categóricas Para transformar las proporciones de vuelta a frecuencias, tan sólo tenemos que multiplicarlas por el tamaño muestral, que en este caso es 300. Cantidad de grasa Enfermedad cardiovascular Sí No Total Baja Media Alta Total Independencia en variables categóricas El resultado es este: Cantidad de grasa Enfermedad cardiovascular Sí No Total Baja Media Alta Total Independencia en variables categóricas El resultado es este: Cantidad de grasa Enfermedad cardiovascular Baja Media Alta Total Sí No Total Esta tabla representaría las frecuencias que esperaríamos encontrar en el caso de que las variables fueran independientes: Independencia en variables categóricas Tenemos dos fuentes de información: • Las frecuencias observadas (), los datos que realmente hemos obtenido. • Las frecuencias esperadas () si las variables fuesen independientes Tabla de frecuencias observada Tabla de frecuencias esperada El estadístico Tenemos dos fuentes de información: • Las frecuencias observadas (), los datos que realmente hemos obtenido. • Las frecuencias esperadas () si las variables fuesen independientes Pueden ocurrir dos cosas: • Que  Las variables podrían ser independientes (i.e., no estar relacionadas) • Que  Las variables no son independientes (están relacionadas). El estadístico mide el grado de discrepancia entre las frecuencias observadas y las esperadas • El menor valor que puede tomar es 0, indicando completa igualdad () y, por tanto, la independencia de las observaciones • No tiene límite superior, pero cuanto más se aleje de 0, mayor será la discrepancia () y, por tanto, menos probable que las variables sean independientes El estadístico Cantidad de grasa Baja Media Alta Sí 12 16 32 60 No 88 84 68 240 Total 100 100 100 300 Enf. cardiovascular Frecuencias observadas 𝒏 𝒊𝒋 Total Cantidad de grasa Enf. cardiovascular Frecuencias esperadas 𝒎𝒊𝒋 Sí No Total Baja Media Alta Total El estadístico Cantidad de grasa Baja Media Alta Sí 12 16 32 60 No 88 84 68 240 Total 100 100 100 300 Enf. cardiovascular Frecuencias observadas 𝒏 𝒊𝒋 Total Cantidad de grasa Enf. cardiovascular Frecuencias esperadas 𝒎𝒊𝒋 Baja Media Alta Total Alta Total Sí No Total Cantidad de grasa Enf. cardiovascular Residuos 𝒏𝒊𝒋 − 𝒎𝒊𝒋 Sí No Total Baja Media El estadístico mide la magnitud de la relación 1. Cuanto mayor sea la suma de todos los residuos, mayor la relación (mayor ) 2 𝐼 𝑋 =∑ 𝑖=1 𝐽 ∑ 𝑗=1 𝑛𝑖𝑗 − 𝑚𝑖𝑗 El estadístico mide la magnitud de la relación 1. Cuanto mayor sea la suma de todos los residuos, mayor la relación (mayor ) 2. Da igual la dirección de la resta, nos interesa la discrepancia 2 𝐼 𝑋 =∑ 𝐽 2 ∑ ( 𝑛𝑖𝑗 − 𝑚𝑖𝑗 ) 𝑖=1 𝑗=1 El estadístico mide la magnitud de la relación 1. Cuanto mayor sea la suma de todos los residuos, mayor la relación (mayor ) 2. Da igual la dirección de la resta, nos interesa la discrepancia 3. Hay que normalizar los residuos por el tamaño de la muestra (no es igual de importante un residuo de 5 en una muestra de 20 personas que en una de 1000) 2 𝐼 𝑋 =∑ 𝑖=1 𝐽 ∑ 𝑗=1 2 ( 𝑛𝑖𝑗 − 𝑚𝑖𝑗 ) 𝑚 𝑖𝑗 El estadístico El estadístico sólo puede tomar valores positivos (de 0 a ) Sigue una distribución chi-cuadrado: La prueba de independencia 1. Las hipótesis No tiene sentido hablar de tipo de contraste (unilateral o bilateral), puesto que la pregunta de investigación es si existe relación o no (Las variables son independientes) (Las variables no son independientes) La prueba de independencia 2. Los supuestos • Muestra aleatoria y observaciones independientes de 2 variables categóricas • No más de un 20% de las casillas tiene una frecuencia esperada menor a 5 La prueba de independencia 3. El estadístico de contraste y su distribución La prueba de independencia 4. Valor p y punto crítico • Valor p: consultar en la tabla estadística de la distribución o en esta web • Punto crítico: consultar la tabla estadística de la distribución o en esta web La prueba de independencia 5. Decisión sobre • Si o cae en la zona de rechazo  rechazar : las variables no son independientes (están relacionadas) • Si o cae en la zona de aceptación  mantener : no hay evidencia de que las variables no sean independientes (podrían ser independientes) La prueba de independencia Queremos averiguar si hay relación entre vivir en el entorno rural o urbano y el tabaquismo. Para eso, recogemos una muestra aleatoria de 200 personas y estudiamos su distribución en cada una de las categorías: Tabaquismo Fumadores Exfumadores No fumadores Rural 18 7 69 94 Urbano 42 6 58 106 Total 60 13 127 200 Entorno 1. 2. 3. 4. 5. Hipótesis: Supuestos: Estadístico de contraste: Valor p: Decisión sobre : Total La prueba de independencia Queremos averiguar si hay relación entre vivir en el entorno rural o urbano y el tabaquismo. Para eso, recogemos una muestra aleatoria de 200 personas y estudiamos su distribución en cada una de las categorías: Tabaquismo Fumadores Exfumadores No fumadores Rural 18 7 69 94 Urbano 42 6 58 106 Total 60 13 127 200 Entorno 1. 2. 3. 4. 5. Hipótesis: no hay relación entre entorno y tabaquismo; sí hay relación Supuestos: Estadístico de contraste: Valor p: Decisión sobre : Total La prueba de independencia Queremos averiguar si hay relación entre vivir en el entorno rural o urbano y el tabaquismo. Para eso, recogemos una muestra aleatoria de 200 personas y estudiamos su distribución en cada una de las categorías: Tabaquismo Fumadores Exfumadores No fumadores Rural 18 7 69 94 Urbano 42 6 58 106 Total 60 13 127 200 Entorno 1. 2. 3. 4. 5. Hipótesis: no hay relación entre entorno y tabaquismo; sí hay relación Supuestos: muestra aleatoria; <20% de casillas con frecuencia esperada inferior a 5 Estadístico de contraste: Valor p: Decisión sobre : Total La prueba de independencia Queremos averiguar si hay relación entre vivir en el entorno rural o urbano y el tabaquismo. Para eso, recogemos una muestra aleatoria de 200 personas y estudiamos su distribución en cada una de las categorías: Tabaquismo Fumadores Exfumadores No fumadores Rural 18 7 69 94 Urbano 42 6 58 106 Total 60 13 127 200 Entorno 1. 2. 3. 4. 5. Hipótesis: no hay relación entre entorno y tabaquismo; sí hay relación Supuestos: muestra aleatoria; <20% de casillas con frecuencia esperada inferior a 5 Estadístico de contraste: Valor p: Decisión sobre : Total La prueba de independencia Queremos averiguar si hay relación entre vivir en el entorno rural o urbano y el tabaquismo. Para eso, recogemos una muestra aleatoria de 200 personas y estudiamos su distribución en cada una de las categorías: Tabaquismo Fumadores Exfumadores No fumadores Rural 18 7 69 94 Urbano 42 6 58 106 Total 60 13 127 200 Entorno 1. 2. 3. 4. 5. Hipótesis: no hay relación entre entorno y tabaquismo; sí hay relación Supuestos: muestra aleatoria; <20% de casillas con frecuencia esperada inferior a 5 Estadístico de contraste: Valor p: Decisión sobre : Total La prueba de independencia Queremos averiguar si hay relación entre vivir en el entorno rural o urbano y el tabaquismo. Para eso, recogemos una muestra aleatoria de 200 personas y estudiamos su distribución en cada una de las categorías: Tabaquismo Fumadores Exfumadores No fumadores Rural 18 7 69 94 Urbano 42 6 58 106 Total 60 13 127 200 Entorno 1. 2. 3. 4. 5. Hipótesis: no hay relación entre entorno y tabaquismo; sí hay relación Supuestos: muestra aleatoria; <20% de casillas con frecuencia esperada inferior a 5 Estadístico de contraste: Valor p: Decisión sobre : Rechazar . Tabaquismo y entorno están relacionados. Total La prueba de independencia Al estudiar la relación entre dos variables categóricas, podemos plantearnos tres preguntas: 1. ¿Existe una relación a nivel poblacional? 2. En caso afirmativo, ¿cuál es la magnitud de dicha relación? 3. En caso afirmativo, ¿cómo podemos interpretar dicha relación? La prueba de independencia Al estudiar la relación entre dos variables categóricas, podemos plantearnos tres preguntas: 1. ¿Existe una relación a nivel poblacional? Prueba X2 de independencia 2. En caso afirmativo, ¿cuál es la magnitud de dicha relación? 3. En caso afirmativo, ¿cómo podemos interpretar dicha relación? La prueba de independencia Al estudiar la relación entre dos variables categóricas, podemos plantearnos tres preguntas: 1. ¿Existe una relación a nivel poblacional? Prueba X2 de independencia 2. En caso afirmativo, ¿cuál es la magnitud de dicha relación? Medidas de asociación 3. En caso afirmativo, ¿cómo podemos interpretar dicha relación? La prueba de independencia Al estudiar la relación entre dos variables categóricas, podemos plantearnos tres preguntas: 1. ¿Existe una relación a nivel poblacional? Prueba X2 de independencia 2. En caso afirmativo, ¿cuál es la magnitud de dicha relación? Medidas de asociación 3. En caso afirmativo, ¿cómo podemos interpretar dicha relación? Residuos tipificados corregidos Medidas de asociación Las medidas de asociación son medidas de tamaño del efecto que permiten cuantificar la magnitud de una relación entre dos variables categóricas Como todo contraste estadístico, la prueba X2 de independencia es susceptible al tamaño muestral • Tamaños muestrales altos  menor error típico  más fácil rechazar • Tamaños muestrales bajos  mayor error típico  más difícil rechazar Las medidas de asociación miden la magnitud de la relación sin depender del tamaño muestral Son, por tanto, transformaciones del estadístico X2 en el que se elimina el efecto del tamaño muestral Medidas de asociación • Coeficiente de contingencia: • V de Cramer: , donde es el número menor entre filas o columnas Ambas medidas oscilan entre 0 y un máximo próximo a 1 Puntos de corte orientativos: • Relación débil: menor a 0,20 • Relación moderada: entre 0,20 y 0,30 • Relación fuerte: mayor a 0,30 Residuos tipificados corregidos El estadístico X2 es un resumen de todos los residuos de una tabla de contingencia Cantidad de grasa Enf. cardiovascular Sí Baja Media Alta Total 2 𝛸 =1 4 No Total Para poder interpretar cómo es la relación entre dos variables categóricas, tendremos que fijarnos en qué casillas específicas de la tabla de contingencia está habiendo una discrepancia importante entre las frecuencias observadas y esperadas Esto es lo que permiten los residuos tipificados corregidos Residuos tipificados corregidos Los residuos tipificados corregidos son una transformación de los residuos a puntuaciones Z para conocer su distribución y poder juzgar si son distintos de cero en la población. Cantidad de grasa Enf. cardiovascular 𝑅𝑖𝑗 Sí No Total Baja Media Alta Total Residuos tipificados corregidos Los residuos tipificados corregidos son una transformación de los residuos a puntuaciones Z para conocer su distribución y poder juzgar si son distintos de cero en la población. Cantidad de grasa Enf. cardiovascular 𝑍𝑅 𝑖𝑗 Baja Media Sí No Total 1.22 Alta Total Residuos tipificados corregidos Como , sólo hay que conocer los puntos críticos de un contraste bilateral de con 𝑍 0,025 =−1,96 𝑍 0,975 =1,96 Por tanto, los residuos tipificados corregidos pueden llevar a tres conclusiones: • : a nivel poblacional • : a nivel poblacional no hay evidencia de que • : a nivel poblacional Residuos tipificados corregidos Los residuos tipificados corregidos son una transformación de los residuos a puntuaciones Z para conocer su distribución y poder juzgar si son distintos de cero en la población. Cantidad de grasa Enf. cardiovascular 𝑍𝑅 𝑖𝑗 Baja Media Sí No Total 1.22 Alta Total Residuos tipificados corregidos Los residuos tipificados corregidos son una transformación de los residuos a puntuaciones Z para conocer su distribución y poder juzgar si son distintos de cero en la población. Cantidad de grasa Enf. cardiovascular 𝑍𝑅 𝑖𝑗 Baja Media Sí No Total : a nivel poblacional 1.22 Alta Total Residuos tipificados corregidos Los residuos tipificados corregidos son una transformación de los residuos a puntuaciones Z para conocer su distribución y poder juzgar si son distintos de cero en la población. Cantidad de grasa Enf. cardiovascular 𝑍𝑅 𝑖𝑗 Baja Media Sí No Total : a nivel poblacional : a nivel poblacional no hay evidencia de que 1.22 Alta Total Residuos tipificados corregidos Los residuos tipificados corregidos son una transformación de los residuos a puntuaciones Z para conocer su distribución y poder juzgar si son distintos de cero en la población. Cantidad de grasa Enf. cardiovascular 𝑍𝑅 𝑖𝑗 Baja Media Sí No Total : a nivel poblacional : a nivel poblacional no hay evidencia de que : a nivel poblacional 1.22 Alta Total Conceptos importantes Covarianza: Estadístico que mide la magnitud y dirección de la relación entre dos variables. Su valor depende de la métrica de las variables, por lo que no es directamente interpretable. Puede ir de hasta , con el 0 indicando ausencia de relación. Coeficiente de correlación de Pearson: Estadístico tipificado que mide la magnitud y dirección de la relación entre dos variables cuantitativas, en una escala de -1 a 1, con el 0 indicando ausencia de relación. El propio coeficiente de correlación es en sí mismo una medida de tamaño del efecto. : Es el coeficiente de correlación al cuadrado. Indica el porcentaje de varianza que comparten dos variables. Diagrama de dispersión: Gráfica que representa la asociación entre dos variables. Son útiles para identificar la forma (ej. lineal o no lineal) de la relación. Coeficiente de correlación de Spearman: Estadístico no paramétrico que mide la magnitud y dirección de la relación entre dos variables ordinales/cuantitativas. Se utiliza cuando no se cumple el supuesto de normalidad. Conceptos importantes Tabla de contingencia: Tabla que indica cómo se distribuyen los sujetos a través de los distintos niveles de dos variables categóricas. Prueba de Independencia: Contraste que se utiliza para medir el grado de asociación entre dos variables categóricas. Residuos: Son el resultado de restar la tabla de frecuencias observada y la tabla de frecuencias esperada. Cuanto mayor sea la discrepancia entre las dos, mayores serán los residuos. Estadístico : Estadístico de contraste que resume los residuos en un solo número. Puede tomar valores de entre 0 y , con valores más alejados de 0 indicando unos mayores residuos (una mayor discrepancia y por tanto una relación más intensa). Sirve para contrastar el supuesto de independencia (ver si una asociación es estadísticamente significativa). Sigue una distribución chi-cuadrado con (donde I es el nº de filas y J el nº de columnas) grados de libertad: Medidas de asociación: Estadísticos que, una vez hemos averiguado si existe una relación estadísticamente significativa, nos indican la magnitud de dicha relación. Los más utilizados son el coeficiente de Contingencia y la V de Cramer. Conceptos importantes Residuos tipificados corregidos: Son los residuos transformados a puntuaciones Z. Permiten ver en qué casillas concretas hay una discrepancia importante entre frecuencias observadas y esperadas. Es decir, permiten ver si los residuos son significativamente distintos de 0 en la población, y así interpretar mejor la relación entre las variables categóricas.

Use Quizgecko on...
Browser
Browser