POL1803: Analyse des techniques quantitatives - Cours 9 - Corrélation et régression PDF
Document Details
Uploaded by EnthusiasticPeony8104
Université de Montréal
Tags
Summary
Ce document détaille les concepts de corrélation et régression linéaire bivariée. Il fournit des exemples, des diagrammes de dispersion et des explications sur les coefficients de corrélation et de détermination. L'analyse concerne les relations entre deux variables.
Full Transcript
POL1803: Analyse des techniques quantitatives Cours 9 Corrélation et régression linéaire bivariée L’analyse bivariée Variables d’intervalles / ratio Satisfaction et vote pour gouv. n Année Satisfaction % Vote % – 1973 56 55 – 1976...
POL1803: Analyse des techniques quantitatives Cours 9 Corrélation et régression linéaire bivariée L’analyse bivariée Variables d’intervalles / ratio Satisfaction et vote pour gouv. n Année Satisfaction % Vote % – 1973 56 55 – 1976 28 34 – 1981 60 49 – 1985 39 39 – 1989 47 50 – 1994 40 44 – 1998 52 43 – 2003 40 33 – 2007 39 33 – 2008 54 42 – 2012 31 31 – 2014 38 25 – 2018 28 25 – 2022 58 41 Diagramme de dispersion n Définition: – Outil pour représenter graphiquement la relation entre deux variables intervalles / ratio. – Permet de caractériser la direction, la force et la forme de la relation. Diagramme de dispersion Direction de la relation Force de la relation Force de la relation Force de la relation Force de la relation Forme de la relation: linéaire Forme de la relation: non-linéaire Diagramme de dispersion Diagramme de dispersion Coefficient de corrélation (r) n Définition: – Outil pour synthétiser en une seule valeur la relation entre deux variables intervalles / ratio. – Permet de caractériser la direction et la force de la relation, mais pas la forme de la relation. Coefficient de corrélation (r) n Formule: r = S Zx Zy N où Zx = x – µx et Zy = y – µy sx sy r = S Zx Zy où Zx = x – µx et Zy = y – µy N sx sy X Y Zx Zy Zx Zy Zx * Z y 56 55 (56-43)/11 (55-39)/9 1,2 1,8 2,2 28 34 (28-43)/11 (34-39)/9 -1,4 -0,6 0,8 60 49 (60-43)/11 (49-39)/9 1,5 1,1 1,7 39 39 (39-43)/11 (39-39)/9 -0,4 0,0 0,0 47 50 (47-43)/11 (50-39)/9 0,4 1,2 0,5 40 44 (40-43)/11 (44-39)/9 -0,3 0,6 -0,2 52 43 (52-43)/11 (43-39)/9 0,8 0,4 0,3 40 33 (40-43)/11 (33-39)/9 -0,3 -0,7 0,2 39 33 (39-43)/11 (33-39)/9 -0,4 -0,7 0,3 52 42 (52-43)/11 (42-39)/9 0,8 0,3 0,2 31 31 (31-43)/11 (31-39)/9 -1,1 -0,9 1,0 38 25 (38-43)/11 (25-39)/9 -0,5 -1,6 0,8 28 25 (28-43)/11 (25-39)/9 -1,4 -1,6 2,2 58 41 (28-43)/11 (25-39)/9 1,4 0,2 0,3 µ 43 39 total 10,3 s 11 9 / 14 0,74 Coefficient de corrélation Coefficient de corrélation Information du coefficient de corrélation n L’échelle s’étend de -1 à +1. n0 signifie une association nulle. n Signe négatif signifie une ass. négative. n -1 signifie une ass. négative parfaite. n Signe positif signifie une ass. positive. n +1 signifie une ass. positive parfaite. Information du coefficient de corrélation n ± ] 0 - 0,25 [ : Faible n ± [ 0,25 - 0,50 [ : Moyenne n ± [ 0,50 - 0,75 [ : Forte n ± [ 0,75 - 1 [ : Très forte Coefficient de corrélation Test F n Définition: – Mesure de la signification statistique du coefficient de corrélation. – Révèle si une relation existe probablement entre ces deux variables dans l’ensemble de la population. Test F n Formule: r2 (n - 2) 1 - r2 où r = Coefficient de corrélation n = Nombre d’observations Test F n Formule: r2 (n - 2) 1 - r2 n Exemple: 0,772 (14 - 2) = 0,59 * 12 = 7,08 = 1 - 0,772 1 - 0,59 0,41 F = 17,3 Test F n Critère: Normalement, pour que le coefficient de corrélation soit statistiquement significatif, la valeur du F doit dépasser le seuil de la table F. Raccourci #1: la valeur du F doit dépasser 3,84 Test F n Si le F est supérieur à 3,84 : – le coefficient est significatif – on peut rejeter l’hypothèse nulle – on peut conclure qu’une relation existe probablement dans la population (95%) n Si le F est inférieur à 3,84 : – le coefficient n’est pas significatif – on ne peut pas rejeter l’hypothèse nulle – on ne peut pas conclure qu’une relation existe probablement dans la population Test F n Formule: r2 (n - 2) 1 - r2 n Exemple: 0,772 (14 - 2) = 0,59 * 12 = 7,08 = 1 - 0,772 1 - 0,59 0,41 F = 17,3 Test F n Critère: Normalement, pour que le coefficient de corrélation soit statistiquement significatif, la valeur du F doit dépasser le seuil de la table F. Raccourci #2: la significat. ne doit pas dépasser 0,05 Test F n Si la signification est inférieure à 0,05 : – le coefficient est significatif – on peut rejeter l’hypothèse nulle – on peut conclure qu’une relation existe probablement dans la population (95%) n Si la signification est supérieure à 0,05 : – le coefficient n’est pas significatif – on ne peut pas rejeter l’hypothèse nulle – on ne peut pas conclure qu’une relation existe probablement dans la population Raccourci #2: Signification statistique Équation de régression linéaire bivariée n Définition: – Outil pour résumer, avec plus de détails, la relation entre deux variables intervalles / ratio. – Permet de prédire (estimer) des valeurs inconnues de la variable dépendante. Équation de régression linéaire bivariée Équation de régression linéaire bivariée Équation de régression linéaire bivariée Équation de régression linéaire bivariée n Formule: Y = a + bX où Y = Variable dépendante a = Intersection ou constante b = Pente ou coefficient de régression X = Variable indépendante Équation de régression linéaire bivariée Y = a + bX n Constante: – Point sur l’axe des Y où passe la droite de régression. – Valeur de la variable dépendante lorsque la variable indépendante a la valeur de 0. Équation de régression linéaire bivariée Équation de régression linéaire bivariée Constante Équation de régression linéaire bivariée Y = a + bX n Coefficient de régression: – Le signe du coefficient reflète la direction de la relation. – La valeur du coefficient indique l’effet sur la variable dépendante d’une hausse d’une unité sur la variable indépendante. Équation de régression linéaire bivariée Équation de régression linéaire bivariée Coefficient de régression Statistique t pour le coefficient de régression n Définition: – Mesure de la signification statistique du coefficient de régression. n Critère: – Pour que le coefficient de régression soit statistiquement significatif à 95%, la valeur absolue du t doit dépasser 1,96. Statistique t n Si la valeur abs. du t est supér. à 1,96 : – le coefficient est significatif – on peut rejeter l’hypothèse nulle – on peut conclure qu’une relation existe probablement dans la population (95%) n Si la valeur abs. du t est infér. à 1,96 : – le coefficient n’est pas significatif – on ne peut pas rejeter l’hypothèse nulle – on ne peut pas conclure qu’une relation existe probablement dans la population Statistique t pour le coefficient de régression Coefficient de détermination n Définition: – Mesure de la proportion de variation chez la variable dépendante qui est expliquée par l’équation de régression. n Formule: r2 où r = Coefficient de corrélation Coefficient de détermination Information du coefficient de détermination n ] 0 - 0,25 [ : Faible n [ 0,25 - 0,50 [ : Moyenne n [ 0,50 - 0,75 [ : Forte n [ 0,75 - 1 [ : Très forte Révision r2 = 1 r2 = 1 r = +1 r = -1 b = + b = - Révision r2 = 0,64 r2 = 0,04 r = +0,8 r = +0,2 b = + b = + Révision r2 = 0 r = 0 b = 0 Avertissement n Il ne faut pas confondre les termes association statistique et relation causale. Le fait de trouver que deux variables varient ensemble n’implique pas automatiquement que l’une est la cause de l’autre. Satisfaction et vote pour gouv. n Année Satisfaction % Vote % – 1973 56 55 – 1976 28 34 – 1981 60 49 – 1985 39 39 – 1989 47 50 – 1994 40 44 – 1998 52 43 – 2003 40 33 – 2007 39 33 – 2008 54 42 – 2012 31 31 – 2014 38 25 – 2018 28 25 – 2022 58 41 Satisfaction et vote pour gouv. n Les résultats suivants présentent une analyse de régression linéaire bivariée. Quel pourcentage des votes le gouvernement sortant devrait-il s’attendre à obtenir si 38% des électeurs québécois sont satisfaits de sa performance lors de la prochaine élection? Effectuez une estimation par intervalle à 95% de certitude sur la base de l’équation de régression et interprétez les résultats. Estimation à partir de l’équation de régression linéaire bivariée Y = a + bX Y = 11,02 + 0,64X Estimation à partir de l’équation de régression linéaire bivariée Y = 11,02 + 0,64X Y = 11,02 + (0,64 * 38) Y = 11,02 + 24,3 Y = 35,3 Estimation à partir de l’équation de régression linéaire bivariée X = 30 ; Y = 30,2 X = 35 ; Y = 33,4 X = 40 ; Y = 36,6 X = 45 ; Y = 39,8 X = 50 ; Y = 43,0 X = 60 ; Y = 49,4 Intervalle de confiance d’une estimation Éventail de valeurs autour de l’estimation ponctuelle (À 95%) : Estimation ± 1,96 * Erreur standard de l’estimation L’erreur standard de l’estimation est l’équivalent de l’écart-type de l’équation de régression. L’erreur standard de l’estimation est calculée par l’ordinateur. Erreur standard de l’estimation Intervalle de confiance d’une estimation Intervalle de confiance d’une estimation X = 38 ; Y = 35,3 Estimation ± 1,96 * Erreur standard de l’estimation 35,3 ± 1,96 * 6,09 = 35,3 ± 11,9 = 23,4 < Y < 47,2 L’interprétation n Qu’avez-vous fait? n Pourquoi avez-vous fait cela? n Qu’avez-vous trouvé? n Qu’est-ce que ça veut dire?