Unitat 3: Relació entre dues variables PDF
Document Details
Uploaded by TopNotchSaxophone
Universitat de València
Tags
Summary
Aquest document és un conjunt de diapositives o notes d'una assignatura d'estadística, especificant conceptes com a taules de contingència, distribucions marginals, regressió i correlació numèriques, i la relació entre una variable categòrica i una numèrica.
Full Transcript
Unitat 3 Relació entre dues variables Departament d’Estadística i Investigació Operativa Universitat de València Unitat 3: Relació entre dues variables 3.1.- Descripció de la relació entre dues variables categòriques...
Unitat 3 Relació entre dues variables Departament d’Estadística i Investigació Operativa Universitat de València Unitat 3: Relació entre dues variables 3.1.- Descripció de la relació entre dues variables categòriques Taules de contingència. Distribucions marginals (Ampliació en la unitat 7) 3.2.- Descripció de la relació entre dues variables numèriques Regressió i correlació 3.3.- Descripció de la relació entre una variable categòrica i una numèrica. (La vorem a la unitat 6) Estadística. Departamento de Estadística e Investigación Operativa. 2 3.1 Descripció de la relació entre dues variables categòriques Taula de contingència Distribucions marginals Estadística. Departamento de Estadística e Investigación Operativa. 3 Taula de contingència: Dieta i salut Es vol investigar si la dieta mediterrània és més saludable que una dieta alternativa hipocalòrica (recomanades per la American Heart Association, AHA), referent al seu efecte protector sobre el risc de patir malalties coronaries fent esport. En l’estudi van participar 605 supervivents d’un atac al cor mentre realitzaven activitat física. A la mitat d’ells, escollits a l’atzar, se’ls va establir una dieta basada en las normes de la AHA, a l’altra mitat se’ls va assignar una dieta mediterrània. Als quatre anys es varen comptabilitzar els que seguien be de salut i els que havien patit alguna malaltia o havien faltat. Es varen obtenir els següents resultats: Taula de contingència Distribució No estar sa Estar sa TOTAL marginal de Dieta AHA 64 239 303 la variable Dieta Mediterrània 29 273 302 dieta TOTAL 93 512 605 Distribució marginal de la variable salud Estadística. Departamento de Estadística e Investigación Operativa. 4 Taula de contingència: Dieta i salut Es vol investigar si la dieta mediterrània és més saludable que una dieta alternativa hipocalòrica (recomanades per la American Heart Association, AHA), referent al seu efecte protector sobre el risc de patir malalties coronaries fent esport. En l’estudi van participar 605 supervivents d’un atac al cor mentre realitzaven activitat física. A la mitat d’ells, escollits a l’atzar, se’ls va establir una dieta basada en las normes de la AHA, a l’altra mitat se’ls va assignar una dieta mediterrània. Als quatre anys es varen comptabilitzar els que seguien be de salut i els que havien patit alguna malaltia o havien faltat. Es varen obtenir els següents resultats: Taula de contingència No estar sa % Estar sa % TOTAL % Dieta AHA 21.1 78.9 100 Dieta Mediterrània 9.6 90.4 100 Estadística. Departamento de Estadística e Investigación Operativa. 5 Taula de contingència: Dieta i salut Es vol investigar si la dieta mediterrània és més saludable que una dieta alternativa hipocalòrica (recomanades per la American Heart Association, AHA), referent al seu efecte protector sobre el risc de patir malalties coronaries fent esport. En l’estudi van participar 605 supervivents d’un atac al cor mentre realitzaven activitat física. A la mitat d’ells, escollits a l’atzar, se’ls va establir una dieta basada en las normes de la AHA, a l’altra mitat se’ls va assignar una dieta mediterrània. Als quatre anys es varen comptabilitzar els que seguien be de salut i els que havien patit alguna malaltia o havien faltat. Es varen obtenir els següents resultats: Taula de contingència No estar sa % Estar sa % Dieta AHA 68.8 46.7 Dieta Mediterrània 31.2 53.3 TOTAL % 100 100 Estadística. Departamento de Estadística e Investigación Operativa. 6 Taula de contingència: Dieta i salut Es vol investigar si la dieta mediterrània és més saludable que una dieta alternativa hipocalòrica (recomanades per la American Heart Association, AHA), referent al seu efecte protector sobre el risc de patir malalties coronaries fent esport. En l’estudi van participar 605 supervivents d’un atac al cor mentre realitzaven activitat física. A la mitat d’ells, escollits a l’atzar, se’ls va establir una dieta basada en las normes de la AHA, a l’altra mitat se’ls va assignar una dieta mediterrània. Als quatre anys es varen comptabilitzar els que seguien be de salut i els que havien patit alguna malaltia o havien faltat. Es varen obtenir els següents resultats: Tabla de contingencia Distribució No estar sa % Estar sa % TOTAL % marginal de Dieta AHA 10.6 39.5 50.1 la variable Dieta Mediterrània 4.8 45.1 49.9 dieta TOTAL % 15.4 84.6 100 Distribució marginal de la variable salut Estadística. Departamento de Estadística e Investigación Operativa. 7 Taula de contingència: Esport i sexe en infants En un estudi recent sobre el l’activitat física en la infància, un grup d’investigadores va examinar a un gran nombre d’estudiants noruecs i van obtenir els següents resultats: Taula de contingència Distribució Xiquets Xiquetes TOTAL marginal de No esportistes 725 40 765 la variable Esportistes 8324 9032 17356 daltonisme TOTAL 9049 9072 18121 Distribució marginal de la variable sexe Estadística. Departamento de Estadística e Investigación Operativa. 8 Taula de contingència: Esport i sexe en infants En un estudi recent sobre el l’activitat física en la infància, un grup d’investigadores va examinar a un gran nombre d’estudiants noruecs i van obtenir els següents resultats: Taula de contingència Xiquets % Xiquetes % TOTAL % No esportistes 94.8 5.2 100 Esportistes 48.0 52.0 100 Estadística. Departamento de Estadística e Investigación Operativa. 9 Taula de contingència: Esport i sexe en infants En un estudi recent sobre el l’activitat física en la infància, un grup d’investigadores va examinar a un gran nombre d’estudiants noruecs i van obtenir els següents resultats: Taula de contingència Xiquets % Xiquetes % No esportistes 8.0 0.4 Esportistes 92.0 99.6 TOTAL % 100 100 Estadística. Departamento de Estadística e Investigación Operativa. 10 Taula de contingència: Esport i sexe en infants En un estudi recent sobre el l’activitat física en la infància, un grup d’investigadores va examinar a un gran nombre d’estudiants noruecs i van obtenir els següents resultats: Taula de contingència Xiquets % Xiquetes % TOTAL % Distribució marginal de No esportistes 4.0 0.2 4.2 la variable Esportistes 45.9 49.8 95.8 daltonisme TOTAL % 49.9 50.1 100 Distribució marginal de la variable sexe Estadística. Departamento de Estadística e Investigación Operativa. 11 3.2 Descripció de la relació entre dues variables numèriques Diagrama de dispersió Correlació Regressió: Mínims quadrats Estadística. Departamento de Estadística e Investigación Operativa. 12 Estudi conjunt de dues variables Volem estudiar la possible relació entre dues variables aleatòries quantitatives X e Y Dades: n parelles d'observacions (xi, yi) amb els valors d'ambdues variables en cada individu de la mostra Casos: Cas 1: Per a certs valors d’X (fixes, elegits per la persona experimentadora) s’observa el valor de la variable aleatòria Y Cas 2: Tant X com Y són variables aleatòries, ninguna és determinista/controlada per la persona experimentadora Estadística. Departamento de Estadística e Investigación Operativa. 13 Relació entre variables Exemple del Cas 1: ANFETAMINES I CONSUM DE MENJAR Les amfetamines són fàrmacs que inhibixen l’apetit. En un estudio sobre aquest efecte, un farmacòleg va assignar aleatòriament 24 culturistes professionals de diferents clubs a tres grups de tractament. Dos grups van rebre una injecció d'amfetamina en dos nivells diferents (dosis 2.5 i dosis 5 mg/Kg). Els culturistes del tercer grup van rebre una injecció d’una solució salina. Es va mesurar la quantitat de menjar consumit per cada persones en un període de tres hores després de la injecció. Els resultats (grams consumit por Kg. de pes corporal) són els següents: Dosis anfetamina (mg/Kg) 0 2.5 5.0 112.6 73.3 38.5 102.1 84.8 81.3 90.2 67.3 57.1 81.5 55.3 62.3 En aquest cas tenim una 105.6 80.7 51.5 variable que es controlada 93.0 90.0 48.3 106.6 75.5 42.7 per la persona que 108.3 77.1 57.9 realitza el experiment, no Mitjana 100.0 75.5 55.0 és aleatòria (Cas 1) DT 10.7 10.7 13.3 Nombre de persones 8 8 8 Estadística. Departamento de Estadística e Investigación Operativa. 14 Relació entre variables Exemple Cas 2: Contingut de grasses i calories Els nord-americans consulten habitualment la informació nutricional que apareix en els envasaments dels aliments amb l’objectiu d’evitar un consum excessiu de grasses i/o calories. La següent informació fa referència als continguts per cada 100 g de huit marques de formatge tallat Marca Grasa (gr) Calorías Kraft Deluxe American 7 80 Kraft Velveeta Slices 5 70 Private Selection 8 100 En aquest cas disposem Ralphs Singles 4 60 de 2 variables aleatòries, Kraft 2% Milk Singles 3 50 for del nostre control (Cas 2) Kraft Singles American 5 70 Borden Singles 5 60 Lake to Lake American 5 70 Estadística. Departamento de Estadística e Investigación Operativa. 15 Diagrama de dispersió Es tracta d’una representació ANFETAMINES I CONSUM DE MENJAR gràfica bidimensional de les observacions Ens permet confirmar visualment l'existència d’una possible relació entre X (variable explicativa) i Y (variable resposta). Si sols disposem d’una variable aleatòria esta es representarà a l’eix Y En R: Datos> Importar> Desde Excel el fichero ‘unidad1.xls: Anfetaminas’ Gráficas> Diagrama de dispersión… scatterplot(consumo~dosis, reg.line=FALSE, smooth=FALSE, spread=FALSE, boxplots=FALSE, span=0.5, data=Datos, xlab='Dosis de anfetamina (mg/kg)‘, ylab ='Consumo de comida (gr/Kg)')) Estadística. Departamento de Estadística e Investigación Operativa. 16 Diagrama de dispersió CONTINGUT DE GRASSA I CALORIES En el cas que disposem dues variables i les dues siguen aleatòries, una (X) s’utilitzarà habitualment per a predir l’altra (Y), haurem de tenir clar quina variable utilitzem per a cada cosa. És a dir, quina utilitzarem per a predir i quina serà la que predirem. En R: Datos> Importar> Desde Excel el fichero ‘unidad1.xls: Quesos’ Gráficas> Diagrama de dispersión… scatterplot(calorias~grasa, reg.line=FALSE, smooth=FALSE, spread=FALSE, boxplots=FALSE, span=0.5, data=quesos, xlab='Grasa (gr)', ylab ='Calorias') Estadística. Departamento de Estadística e Investigación Operativa. 17 Recta de regressió En aquest últim cas en el que disposem de dos variables, la recta de regressió o de mínims quadrats és aquella recta que passa més prop de tots els punts que apareixen en el diagrama de dispersió. Como tota recta la podrem expressar como: y = b0 + b1 * x On: y és la variable resposta, x és la variable explicativa, b0 és el intercept de la recta (el valor de y quan x=0) y b1 és la pendent de la recta o efecte sobre la variable resposta y de incrementar en una unitat la variable explicativa x b1>0 quan x augmenta, y augmenta b1 Importar> Desde Excel el fichero ‘unidad1.xls: Quesos’ Estadísticos> Ajuste de modelos> Regresión lineal… Call: lm(formula = calorias ~ grasa, data = quesos) R-Commander fa Residuals: tot el treball per nosaltres 🎉🎉🎉🎉🎉🎉 Min 1Q Median 3Q Max -7.714 -1.071 1.857 2.286 4.857 b0 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 22.000 6.234 3.529 1 b 0.012378 * grasa 9.143 1.143 8.000 0.000203 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Desviació típica residual Residual standard error: 4.781 on 6 degrees of freedom Multiple R-squared: 0.9143, Adjusted R-squared: 0.9 F-statistic: Coeficient 64 on 1 and 6 DF, p-value: de determinació 0.0002035 Estadística. Departamento de Estadística e Investigación Operativa. 25 Coeficient de correlació lineal Coeficient de correlació lineal: SPXY r= SS X SSY També es pot definir com: 𝑟𝑟 = ± 𝑅𝑅2 Coeficient de determinació L’arrel quadrada serà positiva o negativa en funció de si la relació entre las variables es ascendent o descendent El coeficient de correlació mesura el grau de relació lineal entre X e Y Pren valores entre -1 y 1 -1, 1: relació lineal perfecta (decreixent o creixent respectivament) 0: relació lineal nul·la Estadística. Departamento de Estadística e Investigación Operativa. 26 Exemples de correlacions Una correlació menuda no implica que X e Y no estiguen relacionades Es possible que hi haja una relació però no de tipus lineal Estadística. Departamento de Estadística e Investigación Operativa. 27 Exercici: Contingut de grasses (continuació) Per a l’exemple del contingut en grasses de formatges: Call: lm(formula = calorias ~ grasa, data = quesos) Residuals: Min 1Q Median 3Q Max -7.714 -1.071 1.857 2.286 4.857 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 22.000 6.234 3.529 0.012378 * grasa 9.143 1.143 8.000 0.000203 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.781 on 6 degrees of freedom Multiple R-squared: 0.9143, Adjusted R-squared: 0.9 F-statistic: 64 on 1 and 6 DF, p-value: 0.0002035 R2=0.91 Relación lineal 𝑟𝑟 = + 0.91=0.956 Creixent Estadística. Departamento de Estadística e Investigación Operativa. 28 Final de la unitat 3 Teniu cap pregunta? Estadística. Departamento de Estadística e Investigación Operativa. 29 Resum Unitat 3 Conceptes bàsics: Taula de contingència Distribucions marginals (absolutes i relatives) d’una taula de contingència Relacions entre dues variables (2 casos) Diagrama de dispersió Recta de regressió Variable resposta i variable explicativa Coeficients de la recta (pendent) Residus (desviació típica residual) Coeficient de determinació Coeficient de correlació lineal Estadística. Departamento de Estadística e Investigación Operativa. 30 Resum Unitat 3 Sabem: Construir i interpretar una taula de contingència i les seves distribucions marginals (tant absoluta com relativa) Plantejar una comparació entre dues variables quantitatives Plantejar una recta de regressió, identificar les components i interpretar els coeficients de la pròpia recta. Interpretar un diagrama de dispersió Diferenciar i interpretar els coeficients de determinació i correlació lineal Quan es adient plantejar una recta de regressió i saber si provoca una bona modelització. Utilitzar l’ajust d’una recta de regressió per a “predir” el valor d’una possible nova dada. Estadística. Departamento de Estadística e Investigación Operativa. 31 Final de la Unitat 3 Repetisc Estadística. Departamento de Estadística e Investigación Operativa. 32 Final de la unitat 3 Repetisc Estadística. Departamento de Estadística e Investigación Operativa. 33