PSY 1004A - Séance 6 - 9 Oct 2024 V2 - Psy Analyses Quantitatives - PDF

Document Details

BriskKazoo9341

Uploaded by BriskKazoo9341

Université de Montréal

2024

Kevin Jamey

Tags

psychology quantitative analysis linear regression statistical methods

Summary

Lecture notes for a psychology course on quantitative analysis, focusing on simple linear regression. The lecture covers the concept of simple linear regression, its application in psychology, and the importance of understanding individual differences. It also includes session objectives, required readings, and a preview of an upcoming graded exercise.

Full Transcript

PSY 1004A – Analyses quantitatives en psychologie Séance 6 – La régression linéaire simple Kevin Jamey, MSc, PhD (c) [email protected] 9 Octobre 2024 2 Ordre du jour Exposé magistral et discussions 1. Objectifs et annonces 2. La régression liné...

PSY 1004A – Analyses quantitatives en psychologie Séance 6 – La régression linéaire simple Kevin Jamey, MSc, PhD (c) [email protected] 9 Octobre 2024 2 Ordre du jour Exposé magistral et discussions 1. Objectifs et annonces 2. La régression linéaire simple. 3. Examen intra Commandes R et exercice facultatif 1. La régression linéaire simple dans R 3 Objectifs (séance 6) Connaître et maîtriser les concepts reliés à la régression linéaire simple. Poursuivre la compréhension du test des postulats des analyses paramétriques. Utiliser R pour réaliser des analyses de régression. 4 ATTENTION !!! Il faudra une calculatrice pour l’examen intra Ça sera des calculs simples 5 Lectures pour la séance 7 (intra) Lisez les chapitres 1 à 9 de Haccoun et Cousineau (2010). 6 Lectures pour la séance 8 Lisez le chapitre 10 de Haccoun et Cousineau (2010). 7 Testez votre compréhension ! Haccoun, R. R. et Cousineau, D. (2010). Statistiques: Concepts et applications. Montréal : Les Presses de l'Université de Montréal. Voir p. 27-30; 55-57 pour réviser le cours 1. Voir p. 95-97; 124-126 pour réviser le cours 2. Voir p. 144-146 pour réviser le cours 3. Voir p. 246-248; 288-290 pour réviser le cours 4. Voir p. 177-179 pour réviser le cours 5. Voir p. 209-212 pour réviser le cours 6. 8 Testez votre compréhension ! (suite) Les tests de révisions sur StudiuM seront mis d’ici vendredi soir! 9 La régression linéaire simple 10 La régression linéaire (simple) Utilisation. Logique. Conception graphique et statistique. Erreur d’estimation. 11 La réduction de l’incertitude La corrélation indique le degré avec lequel la connaissance d’une variable réduit l’incertitude relative quant à une autre variable (de 0 % pour une corrélation non significative à 100 % pour une corrélation parfaite). C’est-à-dire le degré avec lequel une variable « explique » l’autre. (Postulats) Comme d’habitude, nous travaillons avec des variables distribuées normalement, à intervalles ou de rapport (ratio). Ces variables démontrent de la variance, ont une relation linéaire et n’ont pas trop de valeurs extrêmes. 12 La mise en pratique de la réduction de l’incertitude La psychologie est l’étude des différences individuelles. Donc, nous nous intéressons à la compréhension des individus. - Ce candidat sera-t-il plus compétent au travail que cet autre? - Suite à l’examen intra, Hortense devrait-elle abandonner son cours? La régression prédit (estime) la position probable d’une personne sur la variable y à partir de sa position connue sur la variable x. Le degré de précision de cette estimation dépend de la taille de la rxy connue. 13 Le concept de la prédiction La « femme moyenne » à combien d’enfants ? - Au Canada : µ = 2. Huguette et Horacina sont deux montréalaises. Combien d’enfants auront- elles chacune ? Le meilleur estimé disponible est la moyenne canadienne et donc, la même prédiction est faite pour ces deux personnes. 14 Le problème avec Χ, comme base de prédiction La Χ, en l’absence d’autres informations est le meilleur estimé de chaque valeur d’une distribution. Chaque distribution (N.B. normale) n’a qu’une seule moyenne. - Nombre d’enfants Χ par famille canadienne = 2. Nous prédisons alors la même valeur pour toutes les observations d’une distribution. Mais la psychologie s’intéresse aux différences individuelles. - Une estimation basée sur Χ est moins précise / utile. 15 La corrélation et la prédiction individuelle La corrélation est une mesure de la réduction de l’incertitude. - rxy = + : ceux ayants une performance supérieure à Χx tendent a aussi avoir une performance supérieure à Χy. - Ainsi, si l’observation x est supérieure à Χx, nous prédisons qu’elle obtiendra une valeur y supérieure à Χy. Le but de la régression consiste alors à utiliser la relation générale (rxy) pour faire une prédiction individualisée et plus précise que celle permise à partir de la moyenne. Vous vous souvenez ? Nous ne faisons pas de corrélation pour une seule observation. Mais nous pouvons utiliser la corrélation d’une distribution pour réaliser une prédiction pour une seule observation. 16 La régression linéaire simple Régression ? Linéaire ? Simple ? Réaliser une prédiction Ne fournira une Consiste à prédire la (estimation) de la estimation « juste » position de l’observation performance probable seulement si la relation sur la variable (y) à d’une observation sur xy est linéaire (voir partir de notre une VD (y) à partir de sa diapo 45+, séance 5 – connaissance d’une position connue sur une postulats). seule autre variable (x). VI (x). 17 La régression linéaire simple (suite) x y Simple En régression linéaire multiple, on utilise plusieurs (VIs) variables indépendantes), pour prédire la variable « y » (VD). x1 y Multiple x2 18 La précision de la prédiction La précision de la prédiction s’améliore au fur et à mesure que rxy augmente (la réduction de l’incertitude étant plus grande avec des rxy plus élevées). - rxy = ± 1,0 : pour chaque observation x, on estime sans erreur la performance sur y. - rxy = 0,0 : pour chaque valeur de x, on estime la même valeur pour toutes les valeurs y (i.e. la Χ de y, ce qui entrainera beaucoup d’erreurs dans les prédictions). - rxy > 0,0; < ±1,0: le niveau de précision (et donc d’erreur) variera entre 0 et 100 %, dépendamment de la corrélation. 19 rxy de + 1 et la prédiction Pour un travail donné, nous cherchons une personne qui tolère bien le stress. Supposons une rxy= +1 entre liens sociaux (x) et tolérance au stress (y). L’individu A est situé à z = +2 sur la variable « liens sociaux » (x). Ne connaissant pas son niveau de tolérance au stress (y), nous désirons l‘estimer. rxy indique le degré de similarité de la position des observations sur x et y. 20 rxy de + 1 et la prédiction (suite) Lorsque rxy= 1,0 la position de chaque x et y correspondant est identiques. Si l’observation se situe à z = +2 sur x, nous prédisons que sa position sur y sera identique, donc z = +2. Prédiction: Ayant de forts liens sociaux nous prédisons que l’individu A détient un niveau « très supérieur » de résistance au stress. Un emploi dans un contexte très stressant est indiqué. QUIZ: Qu’elle serait la prédiction pour l’individu B pour lequel zx= -1 ? 21 rxy de 0 et la prédiction Supposons rxy= 0 entre liens sociaux (x) et tolérance au stress (y). L’individu A est situé à z = +2 sur la variable « liens sociaux » (x). Ne connaissant pas son niveau de tolérance au stress (y), nous désirons l‘estimer. rxy indique le degré de similarité de la position des observations sur x et y. 22 rxy de 0 et la prédiction (suite) Lorsque rxy= 0,0, la position de chaque x et du y correspondant sont aléatoires. Si l’observation se situe à z = +2 sur x, nous prédisons qu’il pourrait être situé à n’importe quelle valeur de y. Mais le meilleur estimé d’une distribution est sa moyenne. Prédiction : ses liens sociaux ayant aucun lien avec sa résistance au stress, nous prédisons que l’individu A détient un niveau moyen de résistance au stress. Un emploi dans un contexte très stressant n’est pas indiqué. QUIZ: Qu’elle serait la prédiction pour l’individu B pour lequel zx = -1 ? 23 Nous aborderons maintenant … Deux « types » de régression (linéaire) simple. - La régression simple standardisée. - La régression simple non-standardisée. Pour ces deux types de régression, nous couvrirons l’approche graphique ainsi que l’approche statistique. 24 La régression standardisée (graphique) La régression standardisée se sert de la position en score-z de l’observation x, afin d’estimer (prédire) sa position en score-z sur la variable y. Haccoun et Cousineau, 2010 25 Le graphique de dispersion Pour une relation xy pafaite zx zy y 3 3 3 2 2 2 1 1 1 0 0 0 x -3 -2 -1 0 1 2 3 -1 -1 -1 -2 -2 -2 -3 -3 -3 26 La droite de régression : le concept central La tendance des coordonnées xy est représentée par une droite de régression. zx zy y 3 3 3 2 2 2 1 1 1 0 0 0 x -1 -1 -3 -2 -1 0 1 2 3 -1 -2 -2 -2 -3 -3 -3 27 La droite de régression : le concept central (suite) y 5 4 Lorsque la réduction de 3 l’incertitude xy est moins que 2 100 %, plusieurs observations 1 situées à la même position sur x peuvent être situées 0 x -5 -4 -3 -2 -1 -1 0 1 2 3 4 5 différemment sur y. -2 -3 -4 -5 28 La droite de régression et le diagramme de dispersion y zx zy 3 3 2 2 2 1 1 1 3 0 x -3 -2 -1 0 1 2 3 0 -1 -1 -1 -3 -2 -2 0 -3 -3 -2 29 Position de la droite (relation intermédiaire) La droite de régression est correctement positionnée lorsqu’elle représente le mieux la distribution des coordonnées. La moyenne étant toujours le meilleur estimé des coordonnées, la droite est bien positionnée lorsqu’elle se trouve à la moyenne (au centre) du nuage de points. 30 La droite : prédiction sur y (ŷ) à partir de x X = 2,5; ŷ = 2,5 zx zy y 3 3 3 2 2 ŷ = 2,5 2 1 1 1 0 0 0 x -1 -1 -3 -2 -1 0 1 2 3 -1 -2 -2 -2 X = 2,5 -3 -3 -3 31 La droite pour différents niveaux de relation L’angle entre la droite de régression et l’abscisse diffère avec le degré de relation xy y 3 3 rxy = 1 2 rxy < 1 2 1 1 0 0 -3 -2 -1 0 1 2 3 x -3 -2 -1 0 1 2 3 -1 -1 -2 -2 -3 -3 32 Mauvaise nouvelle … Avant d’aller plus loin, il faut maintenant apprendre le jargon de la régression. C’est fatiguant, mais nécessaire … 33 Le jargon de la régression y La droite de L’ordonnée (axe des y) 3 régression 2 L’ordonnée à l’origine (croisement de y 1 quand x vaut 0) 0 -3 -2 -1 0 1 2 3 x -1 -2 L’abscisse (axe des x) -3 La pente 34 Position de la droite (suite) Principe: la somme des écarts a la moyenne est toujours égale à zéro. Plaçons la droite n’importe où. Mesurons l’écart entre chaque coordonnée (xy) et la droite. Certaines seront au-dessus de la droite (signe +). Certaines seront en dessous (signe -). La droite est à la bonne place lorsque la somme des + et des – est égale à zéro ! 35 La régression : approche statistique La régression se réduit au positionnement de la droite de régression. Le positionnement par graphique est rarement utilisé. - Il est facilement imprécis. - Il est lent et fastidieux (positionner les coordonnées, calculer les écarts, etc.). - Il n’est pas généralisable aux formes de régressions plus complexes. En pratique, nous utilisons l’approche statistique. 36 La précision de la prédiction (rappel) La précision de la prédiction s’améliore au fur et à mesure que rxy augmente (la réduction de l’incertitude étant plus grande avec des rxy plus élevées). - rxy = ± 1,0 : pour chaque observation x, on estime sans erreur la performance sur y. - rxy = 0,0 : pour chaque valeur de x, on estime la même valeur pour toutes les valeurs y (i.e. la Χ de y, ce qui entrainera beaucoup d’erreurs dans les prédictions). - rxy > 0,0; < ±1,0: le niveau de précision (et donc d’erreur) variera entre 0 et 100 %, dépendamment de la corrélation. 37 « Prédire » ŷ à partir de x et de rxy La valeur prédite (ŷ) se trouve en multipliant la corrélation par le score-z de la valeur x de l’observation. ŷ = rxy * zx rxy = 1 : si zx = 3, ŷ = 3 (1 * 3 = 3) ; Si zx = -1,12, ŷ = -1,12 (1 * -1,12 = -1,12) rxy = 0 : si zx = 3, ŷ = 0 (0 * 3 = 0) ; Si zx = -1,12, ŷ = 0 (0 * -1,12 = 0) 38 Encore du jargon ! La corrélation se note « rxy ». En régression nous utilisons rxy, mais nous lui donnons un autre nom et nous changeons son symbole. rxy devient « b » (béta), « le coefficient de régression standardisé ». 39 Encore du jargon ! (suite) L'objectif de la régression (simple) standardisée consiste à estimer ou prédire, à partir de notre connaissance de la position en score-z de l’observation sur la variable (x), sa position probable en z sur la variable y (ŷ). - zx réfère au score-z que nous connaissons (généralement la VI); elle prend le nom de « prédicteur ». - ŷ réfère au score-z que nous voulons prédire (généralement la VD); elle s’appelle la variable « prédite » (résultante / « outcome »). - La régression standardisée : le terme b signifie que la régression est standardisée. - ŷ = bx * zx 40 Donc, en régression standardisée … Nous calculons le degré de relation linéaire entre x et y (rxy) pour un groupe d’observations. - bx et le nom que nous donnons à rxy. Nous présumons que le bx obtenu dans un groupe sera le même pour d’autres observations similaires (inférence). Nous utilisons bx pour prédire la valeur y (ŷ) pour une observation pour laquelle nous n’avons que sa valeur x. - On transforme l’observation x en score-z. - On multiplie le score-z par le coefficient bx. - Nous obtenons la valeur prédite ŷ pour cette observation, si l’inférence basée sur rxy ou bx est statistiquement significative. 41 Illustration de la régression standardisée Estimation de ŷ si zx = 1,4 ŷ = bx(zx) = 0,50 (1,4) zx zy ŷ = 0,70 3 2 2 3 1 1 rxy= 0,50 Estimation de ŷ si zx = 3,4 0 -1 ŷ = bx(zx)=0,50 (3,4) -1 0 ŷ = 1,70 -2 -2 -3 -3 42 Inconvénients de la régression simple standardisée Que l’on utilise l’approche graphique ou l’approche statistique, la procédure standardisée a un inconvénient majeur : elle produit un estimé de y en score-z plutôt qu’en valeur de l’échelle originale. Ce n’est alors utile que si l’on cherche si une variable x à une influence sur une variable y, sur le plan théorique. 43 Première pause 44 La régression non-standardisée (NS) La régression non standardisée (NS) analyse les données originales et produit un estimé en valeurs originales. Mais les valeurs originales proviennent de distributions x et y qui n’ont pas nécessairement une Χ et un s identique. La droite de régression sera établie en intégrant les Χ et s de x et de y. 45 La régression en sélection du personnel Relation extroversion et performance en vente La droite de régression est établie par la procédure itérative (S+ = S-) n ventes (y) L’ordonnée a 20 Χ est le l’origine: x et y meilleur estimé n’ont pas la 18 d’une même Χ et s 10 distribution. 0 25 200 Score sur extroversion (X) 46 Sélection : choix du candidat A ou B ? n ventes (y) 20 18 Pour A : prédiction = 10 ventes Pour B : prédiction = 18 ventes 10 0 25 200 100 160 A B Score sur extroversion (x) 47 Régression NS : approche statistique L’approche graphique aide à comprendre la logique de la régression mais elle n’est pas pratique. La droite de régression est définie par deux L’ordonnée a l’origine « a » éléments: l’ordonnée a l’origine « a » et la y pente (le coefficient de régression « b »). y = a + b x: définition mathématique d’une ligne droite. La pente ou le coefficient de régression « b » x 48 Compréhension des éléments ŷ = a + bx « b » = le coefficient de régression NS. Il s’agit de la corrélation rxy calculée en valeurs réelles (et non pas en scores-z). Requiert Χx, Χy, sx et sy. « a » = l’ordonnée a l’origine. Intègre le fait que les variables x et y n’ont pas nécessairement la même Χ et le même s. 49 Utilisation de ŷ = a + bx Supposons que nous connaissons a et b. Quelle est la valeur estimée de y pour l’observation connue x? - a = 1; b = 2 Ex. 1 : x = 3 Ex. 2 : x = 1000 ŷ = a + bx ŷ = a + bx ŷ = 1 + 2(3) = 7 ŷ = 1 + 2(1000) = 2001 Donc, la régression NS se résume au calcul de l’ordonnée à l’origine a et du coefficient de régression b. - Il faut trouver a et b (nos deux prochaines tâches). 50 Le coefficient de régression NS « b » Le coefficient de régression b = rxy est exprimé en valeur non standardisée. Le coefficient b indexe numériquement la taille du changement sur y relativement à la taille du changement sur x. 51 Le coefficient de régression NS « b » indique … Le rapport entre la variable x et la variable y. 6 5 6 4 5 3 4 2 3 1 2 1 1 2 3 4 5 6 1 2 3 4 5 6 Un changement de 1 unité sur x Un changement de 1 unité sur x correspond à un changement de correspond à un changement de 1 unité sur y; b = 1. 0 unité sur y; b = 0. 52 Compréhension: quelle sera la valeur de b dans ce cas ? Un changement de 1 unité sur x correspond à un changement de ? unité sur y; b = ? 50 40 30 20 10 0 0 1 2 3 4 5 53 Le calcul du coefficient b (rxy= 1,0) b = rxy (sy/sx) x y b = 1,0 (15,8/1,58) 1 10 b = 1,0 (10) 2 20 b = 10 3 30 4 40 Un changement de 1 point sur x correspond à un 5 50 changement de 10 points sur y. Χ=3 Χ = 30 s = 1,58 s = 15,8 rxy=1,0 54 Explication du coefficient de régression NS b b = rxy (sy/sx) Une correction arithmétique permettant d’exprimer la corrélation en valeur brute et non pas en valeur standardisée. La corrélation rxy est une valeur standardisée. Elle représente la relation entre les valeurs x et y exprimées en scores-z. 55 Le coefficient b pour différentes situations b = rxy (sy/sx) Lorsque rxy = 0, b = 0. Lorsque sy et/ou sx= 0, b = 0 (ou non calculable). Pas de variance (ou d’écart-type), pas le lien et pas de prédiction (postulat) ! Lorsque la corrélation entre x et y est nulle, le changement sur x ne correspond en rien (b = 0) avec le changement sur y. Remarque : identique à la discussion portant sur rxy (séance 5), car b n’est que la corrélation exprimée différemment. 56 « b », « b » et « rxy » La valeur minimale de b = 0. La valeur maximale de b = indéterminée. La valeur de b et de rxy sont identiques. Le signe de b et de b est identique à celui de rxy (si rxy est négative b et b sont négatifs etc.). 57 ŷ = a + bx : le calcul de « a » Après avoir calculé le coefficient de régression non standardisé « b », il nous faut maintenant établir l’ordonnée a l’origine « a ». 58 L‘ordonnée à l’origine « a » L‘ordonnée à l’origine « a » est une constante qui est ajoutée à au produit de b et de x pour finaliser la prédiction. Elle prend en considération que les deux variables x et y n'ont pas nécessairement la même moyenne, les deux pouvant être numériquement différente (ex. grammes et kg). Elle sert à « ajuster » la valeur prédite (ŷ) afin qu'elle soit sur l'échelle de y. Elle indique la valeur sur y, lorsque x est à sa valeur minimale ou a « zéro ». 59 « a » est la valeur de y lorsque x = minimale 20 20 a = + 10 a=+2 10 10 x=0 5 x=0 5 0 0 20 20 a=0 a = -2 10 10 5 x=0 5 x=0 0 0 60 Calcul de l’ordonné à l’origine « a » a = Χy - bΧx b = 10, Χx = 50, Χy = 100 a = 100 – 10(50) = 100 - 500 a = - 400. 61 Quelle est la valeur prédite ŷ si … x y 60 3,1 61 3,6 62 3,8 Formules 63 4,0 65 4,1 64 ŷ=? b = rxy* (sy/sx) rxy 0,91 Χ 62,5 3,72 a = Χy- (b * Χx) s 1,87 0,40 b 0,91*(0,396/1,871) 0,19 ŷ = a + bx a 3,72 - (0,19 * 62,5) - 8,44 ŷx=64 -8,44 + (0,19 * 64) 3,72 62 Résumé (à date) de la régression simple Nous permet de prédire la valeur qu'une observation obtient sur une variable (y) à partir de la valeur qu'elle obtient sur une autre variable (x). Ceci est vrai même lorsque les variables reflètent différentes mesures, en utilisant la régression non standardisée (par exemple, la taille 1, 1,4…1,9 mètres et le poids 60, 70…100 kilos). La taille et le signe des coefficients a et b dépend des statistiques des variables x et y (Χ et s) et de la corrélation rxy. 63 Régression standardisée vs non standardisée Similarités - La droite de régression est déterminée par la relation rxy. - S’établissent graphiquement de la même manière. Différences - L’ordonnée à l’origine est toujours « 0 » en régression standardisée, alors qu’elle n'est presque jamais « 0 » en non standardisée. - La régression standardisée utilise la corrélation (standardisée) pour produire un estimé en valeur standardisée. - La régression NS utilise la relation non standardisée pour produire une estimation en valeurs originales. 64 Récapitulation Régression linéaire standardisée - Modèle: y = bx * zx. - Coefficient de régression: b = rxy. - Ordonnée à l’origine: b0= 0,0 (il n’y en a pas). - ŷ = en score-z. Régression linéaire NON standardisée (NS) - Modèle: y = a + bx. - Coefficient de régression: b = rxy (sy / sx). - Ordonnée à l’origine: a = Χy- bΧx. - ŷ = en valeur originale de y. 65 b vs b : utilisation Le coefficient b : - Utilisé lorsque nous voulons prédire la valeur y exprimée sur la même échelle que celle de la VD. - Utilisé principalement en pratique (sur le terrain), pour faire une véritable prédiction. Le coefficient b : - Utilisé lorsqu’il s’agit de déterminer « l’importance » d’une VI pour la prédiction d’une VD. - Utilisé principalement dans un contexte théorique. Est-ce que x prédit bien (ou moins bien) la variable y ? 66 Utilisation de la régression Concept du point de coupure n ventes (y) Nous désirons engager les personnes qui vendront 15 20 unités ou plus. 18 15 Point de coupure En conséquence, nous 10 engageons les candidats qui obtiennent 130 ou plus sur la variable « extroversion ». 0 25 130 200 100 160 A B Score sur extroversion (x) 67 Dernier concept - l’erreur d’estimation Plus élevée la corrélation rxy, plus élevé sera le coefficient de régression b. Plus élevé est le coefficient, plus précise sera la prédiction. Toutes les coordonnées sont plus proches de la droite de régression et donc, plus précise sera la prédiction. Si la prédiction est plus « précise », le risque d’erreur ou la taille de l’erreur seront plus faibles. 68 Pourquoi l’erreur d’estimation ? La régression est utilisée pour « prédire » une valeur inconnue qui servira à prendre une décision au sujet de la personne. Si nous faisons une erreur, cela pourrait potentiellement être grave pour la personne. Il nous faut donc trouver un moyen d’estimer la taille de l’erreur d’estimation potentielle. - … et donc le degré de précision de l’inférence. 69 Le concept de l’erreur d’estimation Nuage de Points: r = 0,8 Erreurs d’estimation 70 Erreur d’estimation : b ou b = 0,0 Erreur d'estimation très grande (maximale) y x=1 71 Erreur d’estimation : b ou b = 0,80 Erreur d'estimation plus faible 72 La relation entre le coefficient de régression b, b (ou rxy) et l’erreur d’estimation rxy= b = 0,0 rxy= b = 0,5 rxy= b = 1,0 Erreur = maximum Erreur > 0, mais < maximum Erreur = 0 (minimum) 73 L’erreur d’estimation : formulation statistique L’erreur de prédiction est calculée à partir des données initiales utilisées pour construire la régression (c’est comme l’intervalle de confiance que nous avons vu à la séance 4). Une fois la régression établie, nous comparons, pour chaque observation, sa véritable valeur y a sa valeur prédite (ŷ). - Quand trop d’erreur sont commises, il faut rejeter H1 (la prédiction n’est pas statistiquement significative). e = (ŷ - y). - e = l’erreur d’estimation. - ŷ = la valeur prédite de y. - y = la véritable valeur de y. 74 L’erreur moyenne d’estimation ? Il serait utile de connaitre l’erreur moyenne que nos estimations ou prédictions font. Voyez-vous la ressemblance avec l’écart-type (distribution)? Avec l’erreur-type à la moyenne (échantillons et intervalles de confiance) ? Si l’intervalle calculé avec l’erreur moyenne est trop grand, il ne faut pas faire confiance à la prédiction. 75 L’erreur moyenne d’estimation ? (suite) En principe l’erreur moyenne serait Χ𝑒 = S(ŷ - y)/n = Se/n - Mais souvenons-nous que la droite de régression est construite de manière à ce que la somme des erreurs positives soit égale à la somme des erreurs négatives. Χerreur= S(ŷ - y)/N = S(e)/n = 0 La solution 𝛸 erreur= S(ŷ - y)²/ n -1 - Comme dans les autres cas (s, erreur-type), il faut mettre au carré (variance des erreurs d’estimation). 76 L’erreur type d’estimation = s des erreurs se²= la variance des erreurs d’estimation se= l’erreur-type d’estimation L’erreur-type d’estimation et donc l’écart-type des erreurs ! ! " " ! " " 𝑠𝑒2 = #$% = 𝑠𝑒 = # $% 77 L’erreur type d’estimation : se L’erreur type d’estimation nous indique l’erreur typique (moyenne) que nous faisons avec nos prédictions. Nous allons utiliser cette information pour calculer une fourchette de valeurs à l’intérieur de laquelle se trouvera « probablement » la véritable valeur (le principe est semblable à celui de l’intervalle de confiance). Cela servira à conclure / prédire: - Ex.: on prédit que votre note à l’examen final sera 75 %, mais il y de « bonnes » chances que véritablement, elle se trouvera entre 65 % et 85 %. 78 La distribution normale des erreurs d’estimation La distribution étant normale, 68,26 % des La distribution des 𝛸 des échantillons erreurs se trouvent à ± 1 erreur type d’estimation (se) de la valeur prédite. 16 % 68 % 16 % des se des se des se se=-1 0 se=+1 ŷ 79 Le concept de l’erreur d’estimation (rappel) Nuage de points: r = 0,80 Erreurs d’estimation 80 Illustration avec des données fictives Nous prédisons que l’étudiant qui obtient 75 % à l’examen intra (x), obtiendra 70 % (ŷ) à l’examen final. L’erreur type d’estimation est se = 8 pts. ŷ + = 70 + 8 = 78 % ŷ - = 70 – 8 = 62 % Prédiction complète : On prédit la note finale de 70, mais il y une p = 0,68 (68 %) qu’elle se situera entre 62 % et 78 %. - Pour une p = 0,95 (95 %), if faut multiplier se par 1,96 (score-z associé à p < 0.05): 1,96 * 8 = 15,68 - De 54,32 % à 85,68 %. 81 Illustration avec des données fictives (suite) Prédiction complète : On prédit la note finale de 70, mais il y une p = 0,68 (68 %) qu’elle se situera entre 62 % et 78 %. Pour une p = 0,95 (95 %), if faut multiplier se par 1,96 (score-z associé à p < 0.05): 1,96 * 8 = 15,68 Donc, la note finale prédite sera de 70 %, et il y a 95 % des chances qu’elle se situe réellement entre 54,32 % et 85,68 %. 82 La distribution normale des erreurs d’estimation (suite) La distribution étant normale, 95 % des La distribution des 𝛸 des échantillons erreurs se trouvent à ± 1,96 erreur type d’estimation (se) de la valeur prédite. 2,5 % 2,5 % des se des se se=-1,96 0 se=+1,96 ŷ 83 La relation entre se et b ou b Plus faible est rxy ou b, plus elevée sera se. Plus élevée est se, plus large sera la fourchette de valeurs autour de la valeur prédite (la prédiction est moins précise). Lorsque rxy ou b est parfait (i.e. ± 1,0), se = 0 (la prédiction se fait sans erreurs). 84 Postulats de la régression Échelles à intervalles ou de rapport (ratio). Variance sur x et sur y (homogénéité des variances). Linéarité. Distributions normales de x et de y. Éviter les valeurs extrêmes (« outliers »). Variance égale des erreurs de prédictions. Distribution normale des erreurs de prédictions. 85 Postulats de la régression Variance égale des erreurs de prédictions (Homoscedasticité) Homoscedasticité : Variance constante des erreurs. Importance : Garantit la validité des tests statistiques. Exemple : Prédiction du salaire avec âge. Violation : Tests incorrects si violée. 86 87 Postulats de la régression Distribution normale des erreurs de predictions Hypothèse : Erreurs suivent une distribution normale (moyenne 0). Importance : Justifie les tests de significativité. Exemple : Prédiction du poids avec taille. Violation : Fiabilité réduite en cas de non-normalité. 88 La régression linéaire simple : en résumé Sert à prédire avec plus de précision (que Χ la position d’une observation sur la variable y à partir de notre connaissance de sa position sur la variable x. Indique le niveau d'erreur typique des estimations ou prédictions (se), permettant la construction d’une fourchette de valeurs à l’intérieur de laquelle se situe la véritable valeur de y. Exige les Χ et s de x et y, la corrélation entre x et y, le coefficient de régression (« rxy » / « b ») et l’ordonnée à l’origine (« a »). 89 Seconde pause 90 Examen intra 91 Examen intra Le 16 octobre, 12:30-15h00, dans cette salle. 40 QCMs. Les formules, tableaux, mises en situations sont fournis avec l’examen. Besoin d’une calculatrice! 92 Examen intra (suite) Des questions ? 93 Exercice FACULTATIF/ BONUS La régression linéaire simple dans R 94 La commande pour les régressions La commande de régression se réalise à partir du package «jamovi / jmv ». #Activation du package jmv library(jmv) #Structure générale pour la régression simple linReg(df, dep = VD, #identifie la variable dépendante, celle à prédire covs = vars("vi1", "vi2", etc.), #dans votre cas, il n’y a qu’une VI blocks = list(list("vi1", "vi2")), #liste l’ordre d’entrée des variables modelTest = TRUE, #Permet d’obtenir le test F stdEst = TRUE, #Permet d’obtenir les résultats standardisés rmse = TRUE) #Permet d’obtenir l’erreur type d’estimation En résumé… #Structure de base pour la régression simple linReg(df, dep = vd, covs = vars("vi1"), blocks = list(list("vi1")), modelTest = TRUE, stdEst = TRUE, rmse = TRUE) 95 La commande pour les régressions (suite) Il faut maintenant adapter notre commande à notre base de données et nos variables. Dans ce cas, on souhaiterait prédire le niveau de satisfaction à la variable « Réadaptation fonctionnelle » (y), à partir du niveau de satisfaction à la variable « Partenariat infirmière-patient » (x). #Structure de base pour la régression simple linReg(QAPSIR, dep = read, covs = vars("part"), blocks = list(list("part")), modelTest = TRUE, stdEst = TRUE, rmse = TRUE) Attention! Si vous copiez-collez la commande dans R, vous devez vous assurer d’avoir des guillemets droits. Dans l’exemple ci-bas, des guillemets courbés sont pointés. #Structure de base pour la régression simple linReg(QAPSIR, dep = read, covs = vars(part), blocks = list(list(“part“)), modelTest = TRUE, stdEst = TRUE) 96 Régression simple – output/sortie Votre commande Coefficients de Erreur type Degré de corrélation (r) et de d’estimation signification de la régression r2 régression (ANOVA) Variable dépendante Variable indépendante b Degré de signification de b b 97 Comment interpreter la régression? Lorsque l’on vous demande d’interpréter une régression, deux blocs de réponse sont nécessaires (comme pour la corrélation). D’abord, la section « Model Fit Measures » vous indique si la régression dans son ensemble est significative ou non, à partir d’une analyse de variance (ANOVA; statistique F). Nous verrons plus tard ce qu’est une ANOVA, mais pour l’instant, si cette analyse est significative (si le seuil de probabilité p de 0,05 ou moins est atteint), la relation est statistiquement significative). Ensuite, il faut vérifier si le b est significatif. 98 Comment interpreter la régression? (suite) Chaque coefficient b aura aussi un degré de signification. Ceci prend plus d’importance quand la régression comprend plusieurs VI (régression multiple) et que ce ne sont pas toutes les VI qui contribuent à la prédiction. Si tout est significatif, comme c’est le cas ici, vous pouvez aller au second bloc et interpréter la régression. 99 Comment interpreter la régression? (suite) (Général) Il est possible de prédire un score à la variable à partir du score obtenu à variable (ou non). D’abord, l’ANOVA reliée au r2 (0,xx) est significative (ou non), puisque son degré de signification est de x,xx (ou inférieur à x,xx), alors p < 0,05 (ou p > 0,xx lorsque ce n’est pas significatif). Le degré de signification du coefficient de régression (b = 0,xx), quant à lui, est de x,xxx (ou inférieur à x,xxx), alors p < 0,xx (ou p > 0,xx lorsque ce n’est pas significatif). (Si significatif). Ceci permet de dire que plus le score à variable sera élevé (ou faible), plus il y a de chances que (…). 100 Comment interpreter la régression? (suite) (Non significatif) Il n’est pas possible de prédire un score à la variable à partir du score obtenu à variable. L’ANOVA reliée au r2 n’est pas significative puisque son degré de signification est de 0,08, alors p > 0,05 lorsque ce n’est pas significatif). 101 Comment interpreter la régression? (suite) (Significatif) Il est possible de prédire un score à la variable à partir du score obtenu à variable. D’abord, l’ANOVA reliée au r2 (0,52) est significative, puisque son degré de signification est inférieur à 0,000001, alors p < 0,05. Le degré de signification du coefficient de régression (b = 0,816), quant à lui, est inférieur à 0,0000001, alors p < 0,05. Ceci permet de dire que plus le score à variable sera élevé (ou faible), plus il y a de chances que le score à variable sera élevé (ou faible).

Use Quizgecko on...
Browser
Browser