Summary

Ce document est un cours de statistiques de niveau L1S2, créé par Guillaume Vallet, traitant des relations entre variables, de la covariance et de la prédiction.

Full Transcript

GUILLAUME VALLET STATISTIQUES 2 (L1S2) Partie 2 UNIVERSITÉ CLERMONT AUVERGNE U.F.R. DE PSYCHOLOGIE, SCIENCES SOCIALES ET SCIENCES DE L’ÉDUCATION guillaume vallet statistiques 2 (l1s2) 2 Table d...

GUILLAUME VALLET STATISTIQUES 2 (L1S2) Partie 2 UNIVERSITÉ CLERMONT AUVERGNE U.F.R. DE PSYCHOLOGIE, SCIENCES SOCIALES ET SCIENCES DE L’ÉDUCATION guillaume vallet statistiques 2 (l1s2) 2 Table des matières Licence................................................................... 3 Liens entre variables...................................................... 4 Indépendance théorique 4 Co-variance 5 Diagramme de dispersion 8 Corrélation linéaire 9 Prédiction............................................................... 14 Droite de regression 14 L’erreur type 15 Équation de la droite de régression 15 Prédiction sans prédicteur 21 guillaume vallet statistiques 2 (l1s2) 3 Licence Cette œuvre est mise à disposition sous licence Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France. Pour voir une copie de cette licence, visitez http:// creativecommons.org/licenses/by-nc-sa/3.0/fr/ ou écrivez à Creative Commons, PO Box 1866, Mountain View, CA 94042, USA. Vous êtes autorisé à : — Partager — copier, distribuer et communiquer le matériel par tous moyens et sous tous formats — Adapter — remixer, transformer et créer à partir du matériel L’Offrant ne peut retirer les autorisations concédées par la licence tant que vous appliquez les termes de cette licence. Selon les conditions suivantes : — Attribution — Vous devez créditer l’Œuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l’Oeuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l’Offrant vous soutient ou soutient la façon dont vous avez utilisé son Oeuvre. — Pas d’Utilisation Commerciale — Vous n’êtes pas autorisé à faire un usage commercial de cette Oeuvre, tout ou partie du matériel la composant. — Partage dans les Mêmes Conditions — Dans le cas où vous effectuez un remix, que vous transformez, ou créez à partir du matériel composant l’Oeuvre originale, vous devez diffuser l’Oeuvre modifiée dans les même conditions, c’est à dire avec la même licence avec laquelle l’Oeuvre originale a été diffusée. Pas de restrictions complémentaires — Vous n’êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser l’œuvre dans les conditions décrites par la licence. guillaume vallet statistiques 2 (l1s2) 4 Liens entre variables L’intérêt d’étudier plusieurs variables dépendantes en même temps est notamment de pouvoir tester si ces variables sont reliées entre elles, c’est-à-dire d’étudier la liaison entre les variables. Ainsi les variations observées au sein d’une variable seraient reliées aux variations rapportées pour l’autre variable. À l’inverse, l’indépendance entre des variables se traduirait par le fait que les variations entre les variables ne sont pas liées. Autrement dit, la connaissance de la valeur d’une observation ne permet en aucun cas de connaître quoi que ce soit de la valeur prise par l’autre variable pour cette même observation. Par exemple, la taille est liée au poids. Ainsi, connaître la taille de quelqu’un permet d’avoir une idée de son poids potentiel. Par contre, la taille est indépendante du QI. Connaître la taille de quelqu’un ne donne aucune information sur son possible QI. Indépendance théorique Le tableau de contingence est une première étape vers l’étude de l’indépendance ou de la liaison entre les variables. Ainsi, une parfaite indépendance entre les variables se traduirait par le fait que les effectifs, ou les fréquences, dans les différentes cases du tableau soient parfaitement égales. Une telle égalité correspond au fait que les variations dans l’une des variables sont indépendantes, non reliées, aux variations dans l’autre variable. Par exemple, une parfaite indépendance serait observée dans le cas de l’étude sur les liens entre anxiété et dépression des patients du psychologue si le tableau des fréquences ressemblait à cela : Anxiété/Dépression 3 4 5 8 9 0,0625 0,0625 0,0625 0,0625 11 0,0625 0,0625 0,0625 0,0625 13 0,0625 0,0625 0,0625 0,0625 15 0,0625 0,0625 0,0625 0,0625 Toutefois, une telle distribution n’est quasiment jamais observée, c’est pourquoi elle est qualifiée de distribution théorique. Cette indépendance guillaume vallet statistiques 2 (l1s2) 5 peut être testée statistiquement 1 , mais ce sujet, en lien avec la notion 1. Par ex. test du chi-2, χ2 de significativité, sera traité en deuxième année. Ce semestre, nous verrons les outils permettant de quantifier et qualifier la relation entre des variables, et une première étape consiste à effectuer une exploration graphique visuelle. Co-variance La notion de variance fut abordée lors du premier semestre. Pour rappel, la variance désigne comment varient les données autour d’une position centrale, la moyenne. Plus précisément, la variance représente la distance moyenne entre les valeurs d’une série par rapport à sa moyenne (ou l’écart moyen) 2. Le calcul de la variance est la simple 2. Par convention, la variance est application de sa définition, il suffit de soustraire la moyenne à chaque symbolisée par s2 ou σ 2 (sigma). valeur, mais avec la mise au carré de chacun de ces calculs 3. 3. Le résultat serait toujours nul sans cette mise au carré. ∑ n s2 = 1 N (xi − x̄)2 i=1 Il existe également une formule simplifiée pour calculer la variance : ∑ n s2 = ( N1 x2i ) − x̄2 i=1 La covariance 4 est donc la généralisation de la variance d’une à deux 4. Co veut dire “avec”, “ensemble”. variables dépendantes. Nous avons mentionné que les statistiques bivariées nécessitaient de relever les deux mesures en même temps ou pour un même individu. Cette contrainte trouve une explication dans l’étude des liaisons entre les variables. Un médecin qui voudrait vérifier si la taille et le poids sont liés pourrait relever ces deux informations auprès de ses patients. S’il note ces informations sur des feuilles séparées, sans préciser à qui appartiennent ces mesures, voici ce qu’il pourrait obtenir pour le poids (en kg) : 78, 83, 59, 89, 67 et pour la taille (en cm) : 163, 173, 184, 165, 179. Les données présentées ainsi ne pouvant pas être interprétées, comment vérifier si les personnes plus grandes pèsent généralement plus lourd que les personnes plus petites ? Au contraire, si le médecin note rigoureusement le poids et la taille d’un individu en même temps, il obtiendra des couples de données : {173 ; 78}, {163 ; 59}, {179 ; 83}, {165 ; 59}, et {184 ; 89}. guillaume vallet statistiques 2 (l1s2) 6 Poids Taille 78 163 83 173 59 184 89 165 67 179 Ce groupement permet de se faire une première idée en faveur de son hypothèse. Au niveau mathématique, il faudra donc lier les valeurs de chaque couple de données. Pour ce faire, il est possible d’imaginer d’effectuer n’importe quelle opération entre ces données (soustraction, addition, division…), mais pour des raisons mathématiques, qui vont au-delà du cours, il est convenu de multiplier ces valeurs entre elles. Puisque la variance désigne l’écart moyen entre les valeurs d’une série et sa moyenne, pour la co-variance, il suffira de calculer la moyenne du produit des écarts de chaque série à sa moyenne, soit : ∑ n COV (X, Y ) = sXY = 1 N (xi − x̄)(yi − ȳ) i=1 Puisque pour la covariance il faut considérer les distances entre les observations et leurs moyennes respectives, il n’y a plus besoin de mettre les différences au carré (la somme des produits des différences ne fera que très rarement 0). Tout comme il existe une version simplifiée de la formule de la variance, il existe de même une formule simplifiée de la covariance : ∑ n COV (X, Y ) = sXY = ( N1 xi yi ) − x̄ȳ i=1 Cette formule se comprend plus facilement en poussant la logique de la multiplication des variables entre elles pour les lier. Cela ramène à créer une nouvelle variable, X ∗ Y = X × Y. Il est alors possible de calculer la variance de cette nouvelle variable avec la formule simplifiée de la variance. Poids Taille Poids*Taille 78 163 12714 83 173 14359 59 184 10856 89 165 14685 67 179 11993 guillaume vallet statistiques 2 (l1s2) 7 12714+14359+... La moyenne de cette nouvelle variable vaut xy ¯ = 5 et le produit des moyennes vaut x̄ × ȳ. Attention, alors que la variance est toujours positive ou nulle, la covariance peut aller de moins l’infini à plus l’infini. Une covariance nulle signifie que les deux variables sont parfaitement indépendantes. Une covariance positive indiquera que lorsque les valeurs de X augmentent, les valeurs de Y tendent à augmenter également. Inversement, une covariance négative indiquera que lorsque les valeurs de X augmentent, les valeurs de Y tendent à diminuer. Exemple 1 : Suivant l’exemple du psychologue étudiant l’anxiété et la dépression de ses patients, voici le calcul de la covariance : ∑ COV (X, Y ) = sXY = ( N1 xi yi )−x̄ȳ donc COV (Anx, Dep) = ( 11×3+15×5+...15×8+11×4 10 )−11.8 × 4.8 COV (Anx, Dep) = 3.16 La covariance de l’anxiété et de la dépression pour les patients du psychologue vaut 3.16. Puisque la covariance est positive, cela signifie que lorsque un patient rapporte un haut niveau d’anxiété, il tend à rapporter un haut niveau de dépression. Exemple 2 : La covariance ne peut pas être calculée puisqu’il est impossible de déterminer une moyenne (ou un autre indice statistique numérique) pour le sexe des conducteurs. Cet exemple permet alors de souligner que la covariance ne peut se déterminer que pour des données numériques (ou équivalentes) 5 ! 5. Il existe d’autres méthodes statistiques pour des données non numériques, voir le cours de 2e année. Attention ! Les résultats que vous obtiendrez en utilisant ces formules ne correspondront pas nécessairement à ceux que vous pourriez obtenir en utilisant une calculatrise scientifique, un tableur ou un logiciel de statistiques. En effet, les formules indiquées correspondent aux calculs appliqués à des populations alors qu’en réalité ce sont presque toujours des échantillons qui sont utilisés. D’une manière globale, Plus la taille d’échantillon est il suffit de soustraire 1 à N au dénominateur. importante, moins l’écart avec la population sera significatif. La variance ne peut pas s’interpréter directement, il faut passer par l’écart-type pour revenir dans l’échelle de mesure initiale. Il en va de même pour la covariance, son interprétation est rendue possible par le cœfficient de corrélation. guillaume vallet statistiques 2 (l1s2) 8 Diagramme de dispersion La présentation graphique de deux variables s’appelle un diagramme de dispersion ou un nuage de points. Comme le nom le suggère, il s’agit de regarder comment se dispersent (i.e. se répartissent) les observations en fonction des deux variables (X et Y ). Variable Y (modalités) Pour ce faire, il faut représenter chaque observation (i.e. chaque individu) selon les valeurs obtenues pour la première variable (X) 0 10 et pour la seconde variable (Y ). Exemple : Les données des 10 patients du psychologue pourraient 0 2 4 6 8 10 être représentées soit avec l’anxiété en ordonnée (A) soit avec la Variable X (modalités) dépression en ordonnée (B). Figure 1 : Diagramme de dispersion A + + B8 + des résultats des 10 patients avec l’anxiété en ordonnée (A) ou avec la dépression en ordonnée (B) 14 7 + Dépression 6 Anxiété 12 5 + + + + + 4 + + + 10 + + 3 + + 3 4 5 6 7 8 10 12 14 Dépression Anxiété A Y La forme du nuage de points est révélatrice de l’éventuelle relation X qu’entretiennent les variables. B Ainsi, une forme très patatoïdale (Fig A) traduit une absence globale de lien entre deux variables puisque lorsque les valeurs d’une des Y variables changent, les valeurs de l’autre variable ne semblent pas changer de manière systématique. Lorsque les valeurs de X augmentent, X les valeurs de Y peuvent aussi augmenter ou diminuer. De même, C lorsque les points se distribuent selon une ligne droite horizontale (ou presque droite) (Fig B) ou une ligne presque verticale, aucune Y relation n’existe entre les deux variables puisqu’une ligne parfaitement horizontale (ou parfaitement verticale) signifierait qu’une des deux variables est en fait une constante (i.e. toujours la même valeur). X D Y X guillaume vallet statistiques 2 (l1s2) 9 Par contre, lorsque les points forment une ligne montante (Fig C) ou descendante (Fig D), alors il existe probablement une relation, dite linéaire, entre les variables. Dans le cas de la Fig C, lorsque les valeurs de X augmentent, les valeurs de Y augmentent à leur tour (relation positive). Dans le cas de la Fig D, lorsque les valeurs de X augmentent, les valeurs de Y diminuent (relation négative). Les changements observés pour une variable peuvent donc se répercuter de manière similaire, ou inverse, ou sans lien avec les changements observés pour l’autre variable. Ces changements concomittants ou non peuvent s’étudier grâce à la covariance. Attention ! cette section, ainsi que le cours de cette année, ne traiteront que de relations linéaires, c’est-à-dire de relations pour lesquelles une ligne droite peut être tracée qui suit plus ou moins bien la répartition des données sur un graphique. Il faut que les points sur le nuage de points aillent “tous dans un même sens”, sans changer de direction. Cependant, il existe virtuellement une infinité de relations possibles avec des relations changeant de multiple fois de sens, par exemple en U inversé comme pour le stress et la performance : Figure 2 : Schéma tiré de Naudin (2016) Corrélation linéaire La corrélation permet de tester la liaison entre plusieurs variables en ramenant la covariance dans un espace normé de -1 à +1. Il devient alors possible de comparer directement des associations entre elles. Important : une corrélation ne signifie pas un lien causal. Exemple 6 : 6. Voir par exemple ‘Spurious correlation’ ou encore https ://cortecs.org guillaume vallet statistiques 2 (l1s2) 10 — Plus les divorces diminuent, moins il se mange de margarine ; — Plus les ventes de voitures allemandes augmentent, plus il y a de suicides par accident de voiture ; — Plus miss America est jeune, plus les meurtres diminuent ; — Plus les gens achètent d’Iphone, plus il y a de chutes mortelles dans les escaliers. Pour ce cours, nous allons uniquement nous intéresser au cœfficient de corrélation linéaire, noté r 7. Tel que mentionné ci-dessus, ce 7. Le cœfficient de corrélation linéaire cœfficient est compris entre -1 et 1 et correspond à la pente de la est appelé cœfficient de Pearson. Il existe également des cœfficient de droite qui passerait par l’ensemble des points. La significativité d’une relation non-linéaire comme le rho (ρ) relation sera traitée en deuxième année, mais vous pouvez déjà retenir de Spearman. qu’une corrélation est forte quand elle est comprise entre |0,5| et |1|, et faible entre |0| et |0,5|. Tout comme la variance, une corrélation est dite positive si la valeur obtenue est supérieure à 0, les deux variables varient alors dans le même sens ; et elle est dite négative si la valeur est en dessous de 0, les deux variables varient dans des sens opposés. Le cœfficient de corrélation se calcule en normalisant la covariance par rapport à l’écart-type de chaque variable dépendante : COV (X,Y ) r= Sx Sy Exercices d’application Exercice 1 Une psychologue scolaire s’intéresse à l’apprentissage de la lecture des enfants au CM1. Elle récupère auprès de l’enseignant la performance obtenue à un test de lecture et elle demande en même temps aux parents combien d’heures leur enfant passe à lire par semaine. Enfants Capacité de lecture Heures de lecture E1 20 5 E2 5 1 E3 5 2 E4 40 7 E5 30 8 E6 35 9 E7 5 3 E8 5 2 E9 15 5 E10 40 8 guillaume vallet statistiques 2 (l1s2) 11 1. Représentez graphiquement ces données en un nuage de points. 2. Interprétez le possible lien qui unit ces deux variables à partir de la forme du nuage de points. 3. Calculer la covariance de ces deux variables. 4. Déterminez le cœfficient de corrélation de Pearson et écrivez une phrase d’interprétation. Exercice 2 Un chercheur en psychologie sociale s’intéresse à l’influence des réseaux sociaux sur la sociabilité des jeunes adultes. Pour ce faire, il mène une étude auprès d’étudiants dans laquelle il relève le temps de connexion par jour (en minutes) sur Instagram et Snapchat (confondu) et le nombre de sorties effectives dans la semaine. Etudiants Minutes sur les réseaux Nombre de sorties E1 45 2 E2 75 3 E3 52 2 E4 60 1 E5 35 6 E6 68 2 E7 53 5 E8 39 4 E9 50 5 E10 85 3 E11 58 1 E12 65 3 1. Représentez graphiquement les données en un nuage de points. 2. Interprétez le possible lien qui unit ces deux variables à partir de la forme du nuage de points. 3. Calculer la covariance de ces deux variables. 4. Déterminez le cœfficient de corrélation de Pearson et écrivez une phrase d’interprétation. Correction des exercices d’application Exercice 1 1. Représentation graphique guillaume vallet statistiques 2 (l1s2) 12 Capacité de lecture 40 30 20 10 0 2.5 5.0 7.5 Heures de lecture (/ sem.) 2. Le nuage de points suggère une relation linéaire positive, plus l’enfant passe d’heures à lire, meilleure est sa capacité de lecture. 3. Covariance : ∑ xi Préparation des calculs : x̄heure = N = 5 et ȳlecture = 20 Enfant Lecture Heures x − x̄ y − ȳ Heure*Lecture E1 20 5 0 0 100 E2 5 1 -4 -15 5 E3 5 2 -3 -15 10 E4 40 7 2 20 280 E5 30 8 3 10 240 E6 35 9 4 15 315 E7 5 3 -2 -15 15 E8 5 2 -3 -15 10 E9 15 5 0 -5 75 E10 40 8 3 20 320 Calcul de la covariance avec la formule normale : COV (heure, lecture) = (−4×−15)+(−3×−15)+...+(3×20) 10 = 37 Calcule de la covariance avec la formule simplifiée : COV (heure, lecture) = 100+5+10+...+75+320 10 − 20 × 5 = 37 4. Cœfficient de Pearson : r = COV (Heure,Lecture) SHeure SLecture = 37 2.7568098×14.3178211 = 0.937385 Le nombre d’heures de lecture est fortement corrélé avec la capacité de lecture des enfants (r = 0.94), plus l’enfant lit chez lui, meilleure est sa capacité de lecture à l’école. Exercice 2 1. Représentation graphique guillaume vallet statistiques 2 (l1s2) 13 Nombre de sorties 6 (/ sem.) 4 2 40 50 60 70 80 Minutes sur les réseaux (/ jour) 2. Le nuage de point suggère une relation négative entre le nombre de minutes passées par jour sur les réseaux sociaux et le nombre de sorties par semaine. 3. Covariance : Préparation des calculs : Etudiant Réseaux Sorties Réseaux*Sorties E1 45 2 90 E2 75 3 225 E3 52 2 104 E4 60 1 60 E5 35 6 210 E6 68 2 136 E7 53 5 265 E8 39 4 156 E9 50 5 250 E10 85 3 255 E11 58 1 58 E12 65 3 195 Calcule de la covariance avec la formule simplifiée : COV (Reseaux, Sorties) = 90+225+...+58+195 12 − 57.08 × 3.08 ≈ −9.0069 4. Cœfficient de Pearson : −9.0069444 r = COV (Rseaux,Sorties) SRseaux SSorties = 13.9789028×1.552328 = -0.4150696 Le nombre de minutes passées par jour sur les réseaux sociaux est faiblement associé aux nombres de sorties par semaine (r = −0.42), plus l’étudiant passe de temps sur les réseaux sociaux, moins il tend à sortir dans la semaine. guillaume vallet statistiques 2 (l1s2) 14 Prédiction Il a pu être mentionné à plusieurs reprises dans ce document que l’étude des liaisons entre des variables permet notamment d’avoir une idée des valeurs d’une variable à partir de la connaissance de l’autre. Autrement dit, il s’agira de prédire les valeurs d’une variable à partir d’une valeur donnée de l’autre variable. L’intérêt est de pouvoir généraliser l’association entre les variables pour aller au-delà des observations réellement effectuées. Par exemple, si la dépression est bien associée à l’anxiété, il suffirait de faire passer un questionnaire de dépression à un nouveau patient pour imaginer quel serait son niveau d’anxiété probable. Droite de regression Les nuages de points ainsi que le cœfficient de corrélation étudiés ce semestre concernent des relations “linéaires”, c’est-à-dire dont la relation pourrait être représentée par une ligne droite. Cette ligne est appelée droite de régression. La droite “représente” au mieux le Pour rappel, l’équation d’une droite nuage de points, c’est-à-dire qu’elle minimise au maximum les écarts est appelée fonction affine et se formule : y = ax + b (“différences”) entre chaque point et la droite (voir les graphiques ci-dessous). Cette droite régresse les différences (d’où son nom). Cependant, il faut distinguer deux droites de régressions possibles selon que l’on cherche à minimiser les différences entre la droite de régression et les valeurs de X ou avec les valeurs de Y. La distance entre les points et la droite de régression est appelée “résidu”, c’est conceptuellement l’erreur de l’adéquation de la droite aux données réelles. Figure 3 : Illustration du principe des A B droites de régression selon que l’on minimise (A) les écarts entre la droite et les points selon l’axe Y ou (B) les écarts entre la droite et les points selon l’axe X. guillaume vallet statistiques 2 (l1s2) 15 (A) y = a.x + b : droite de régression de Y en fonction de X. En réalité, les équations devraient (B) x = a.y + b : droite de régression de X en fonction de Y s’écrire : y = ax + b + Er, où Er représente l’erreur résiduelle (erreur de prédiction). L’équation de la droite de régression est composée de deux termes, ax (ou ay) où a représente le cœfficient directeur de la droite (i.e. la pente) et b qui représente l’ordonnée à l’origine. Plus la pente est élevée, plus la droite “monte”, ou “descend” (donc plus le cœfficient de corrélation sera proche de 1). Quant à l’ordonnée à l’origine, elle représente le point où la droite de régression coupe l’axe des ordonnées. Par convention, Y représente la variable que l’on cherche à prédire et donc X la variable prédictrice. Vous utiliserez ainsi C’est donc une excellente méthode essentiellement l’équation (A). pour déterminer dans un tableau de contingence, ou un graphique, quelles variables sont X et Y. L’erreur type La présentation ci-dessus des équations des droites de régression est donc une simplification de la réalité, puisque ces équations ne tiennent pas compte de l’erreur des résidus, c’est-à-dire de la distance entre les points réels et la droite de régression les représentant. Cette erreur n’est toutefois pas la seule à devoir être considérée. Ainsi, le calcul des différents paramètres d’une droite de régression, soit a et b n’est en fait qu’une estimation. Autrement, dit, déterminer a et b conduit à estimer leur valeur probable et non déterminer leur valeur réelle. Cette erreur est appelée erreur type ou erreur standard. L’erreur type trouve son origine dans la distribution d’échantillonnage. Pour rappel (cours S1), les indices statistiques déterminés pour un échantillon ne sont que très rarement équivalents aux valeurs réelles qui seraient observées pour la population. Cette erreur d’échantillonnage fait, par exemple, que la moyenne d’un caractère X d’un échantillon est légèrement différente de celle de sa population. Plus l’échantillon est important, moins l’erreur sera grande. Ce même principe s’applique ici pour l’estimation des paramètres de la droite de régression. C’est d’ailleurs pourquoi il existe plusieurs méthodes pour estimer a et b et qu’elles aboutissent à des résultats proches, mais différents ! Équation de la droite de régression Le calcul de a peut se faire de différentes manières selon la méthode choisie pour minimiser les écarts. Pour ce cours, nous verrons la méthode dite des moindres carrés : COV (X,Y ) a= s2x Il s’agit de diviser la covariance de XY par la variance de X. guillaume vallet statistiques 2 (l1s2) 16 Le calcul b est possible par simple résolution d’équation du premier degré : y = ax + b donc b = y − ax La résolution du calcul est possible grâce à la connaissance d’un point de la droite, tel que G. G représente le centre de gravité du nuage de point et la droite de régression passe obligatoirement par ce point. Il correspond au point au croisement de la moyenne de X et de la moyenne de Y , soit G(x̄; ȳ). Donc, on peut calculer b selon la formule suivante : b = ȳ − ax̄ Une fois l’équation de la droite de régression déterminée, il est possible de généraliser la relation liant X et Y afin d’estimer (i.e. calculer) des valeurs n’ayant pas été observées. Il est aisé de calculer : — (a) une valeur de Y sachant une valeur de X : y = ax + b y−b — (b) une valeur de X sachant une valeur de Y : x = a. Il est possible de tracer la droite de régression en utilisant deux points appartenant à cette droite. Ces points peuvent être composés du centre de gravité G ainsi que de l’ordonnée à l’origine b ou tout autre point calculé à partir de l’équation de la droite. Exercices d’application A partir des données présentées précédemment, déterminer les droites de régressions pour l’exercice 1 et 2. Exercice 1 1. Déterminer l’équation de la droite de régression pour la capacité de lecture selon le nombre d’heures de lecture à la maison et tracer cette droite. 2. Déterminer l’équation de la droite de régression pour le nombre d’heures de lecture à la maison selon la capacité de lecture et tracer cette droite. 3. En utilisant l’équation calculée pour la 1ère question, déterminer quelle serait la capacité probale de lecture d’un enfant lisant en moyenne 4 heures à la maison. guillaume vallet statistiques 2 (l1s2) 17 Exercice 2 1. Déterminer l’équation de la droite de régression pour le nombre de sorties dans la semaine en fonction du temps journalier sur les réseaux sociaux et tracer cette droite. 2. Déterminer l’équation de la droite de régression pour le temps passé sur les réseaux sociaux selon le nombre de sorties et tracer cette droite. 3. En utilisant l’équation calculée pour la 1ère question, déterminer quel serait le nombre probable de minutes passées par jour sur les réseaux sociaux par un étudiant sortant en moyenne 7 fois par semaine. Correction des exercices d’application Exercice 1 1. Déterminer l’équation de la droite de régression pour la capacité de lecture selon le nombre d’heures de lecture à la maison et tracer cette droite. 2. Déterminer l’équation de la droite de régression pour le nombre d’heures de lecture à la maison selon la capacité de lecture et tracer cette droite. 3. En utilisant l’équation calculée pour la 1ère question, déterminer quelle serait la capacité probale de lecture d’un enfant lisant en moyenne 4 heures à la maison. Pour rappel, y = ax + b et donc b = y − ax. 1. Ici X correspond au nombre d’heures de lecture à la maison et Y à la capacité de lecture COV (X,Y ) 37 a= s2x = 7.6 = 4.8684211 Puisque G(x̄; ȳ) alors G vaut G(5; 20), donc : b = y − ax = ȳ − ax̄ = 20 − 4.8684211 × 5 = −4.3421053 L’équation de la droite de régression linéaire pour la capacité de lecture selon le temps de lecture à la maison est y = 4.87x + −4.34 Sa représentation graphique serait : guillaume vallet statistiques 2 (l1s2) 18 40 Capacité de lecture 30 G 20 10 0 2.5 5.0 7.5 Heures de lecture (/ sem.) 2. Ici X correspond à la capacité de lecture et Y le nombre d’heures de lecture à la maison. COV (X,Y ) 37 a= s2x = 205 = 0.1804878 Puisque G(x̄; ȳ) alors G vaut G(20; 5), donc : b = y − ax = ȳ − ax̄ = 5 − 0.1804878 × 20 = 1.3902439 L’équation de la droite de régression linéaire pour le temps de lecture à la maison selon la capacité de lecture est y = 0.18x + 1.39 Sa représentation graphique serait : Heures de lecture (/ sem.) 7.5 G 5.0 2.5 0 10 20 30 40 Capacité de lecture 3. Il s’agit de prédire une valeur de Y sachant une valeur de X, ici 4. y = ax + b soit y = 4.87x + −4.34 donc guillaume vallet statistiques 2 (l1s2) 19 y = 4.87 × 4 + −4.34 = 15.14 Un enfant passant 4 heures par semaine à lire à la maison devrait avoir un score au test de lecture d’environ 15. Exercice 2 1. Déterminer l’équation de la droite de régression pour le nombre de sorties dans la semaine en fonction du temps journalier sur les réseaux sociaux et tracer cette droite. 2. Déterminer l’équation de la droite de régression pour le temps passé sur les réseaux sociaux selon le nombre de sorties et tracer cette droite. 3. En utilisant l’équation calculée pour la 1ère question, déterminer quelle serait le nombre probable de minutes passées par jour sur les réseaux sociaux par un étudiant sortant en moyenne 7 fois par semaine. Il faut d’abord déterminer X et Y. 1. Ici X correspond au nombre de minutes passées sur les réseaux sociaux par jour et Y aux nombre de sorties effectives dans la semaine. COV (X,Y ) −9.0069444 a= s2x = 195.4097222 = −0.0460926 Puisque G(x̄; ȳ) alors G vaut G(57.0833; 3.0833) 8 donc : 8. Afin d’augmenter la précision des calculs, il vaut mieux utiliser des b = y − ax = ȳ − ax̄ = 3.0833 − (−0.0461) × 57.0833 = 5.7148401 arrondis à 4 décimales. L’équation de la droite de régression linéaire pour le nombre de sorties selon le temps passé sur les réseaux sociaux est y = −0.05x + 5.71 Sa représentation graphique serait : 6 Nombre de sortie (/ sem.) 4 G 2 40 50 60 70 80 Temps sur les réseaux sociaux (en min.) guillaume vallet statistiques 2 (l1s2) 20 2. Ici X correspond au nombre de sorties effectives dans la semaine et Y au nombre de minutes passées sur les réseaux sociaux par jour COV (X,Y ) −9.0069444 a= s2x = 2.4097222 = −3.7377522 Puisque G(x̄; ȳ) alors G vaut G(3.0833; 57.0833) donc : b = y − ax = ȳ − ax̄ = 57.0833 − (−3.7378) × 3.0833 = 68.6080587 L’équation de la droite de régression linéaire pour le temps sur les réseaux selon le nombre de sorties est y = −3.74x + 68.61 Sa représentation graphique serait : réseaux sociaux (en min.) 80 Temps sur les 70 60 G 50 40 2 4 6 Nombre de sortie (/ sem.) 3. Il s’agit de prédire une valeur de X sachant une valeur de Y , ici 7. y = ax + b soit y = −0.05x + 5.71 donc x = y−b a = 7−5.71 −0.05 = −25.8 Nous pouvons constater ici que le résultat semble incohérent avec un nombre de minutes sur les réseaux sociaux négatif. Ce résultat permet de souligner deux éléments importants. Tout d’abord, les données rapportées ici sont faiblement liées entre elles, autrement dit, la droite de régression est un “résumé” assez approximatif de ce qui se passe. Il existe beaucoup de distance entre les points et la droite (voir par exemple pour le point à 6 sorties par semaine). Deuxièment, ce calcul montre également la limite de l’extrapolation d’une valeur selon l’équation de la droite de régression linéaire, puisque cette équation permet seulement de prédire des valeurs qui appartiennent à la droite. Dans ce cas de figure, il peut être plus pertinent d’estimer une valeur indépendament de l’autre. guillaume vallet statistiques 2 (l1s2) 21 Prédiction sans prédicteur Il n’est pas toujours possible d’utiliser une régression (linéaire ou non) pour prédire une valeur (voir l’exemple ci-dessus). Plus généralement, le cas se produit lorsqu’une seule variable est étudiée (statistique univariée), ou lorsqu’il n’existe pas de relation forte entre les variables disponibles. La prédiction permet alors de résoudre le problème des données manquantes (voir le cours du premier semestre) ce qui peut-être une condition nécessaire pour certaines analyses 9. 9. Ces analyses seront présentées en L2 et en L3 Série simple Dans les situations décrites ci-dessus, la meilleure solution est d’utiliser la moyenne de la série considérée. En effet, il a pu être mentionné dans le cours du premier semestre que la moyenne est l’indice statistique qui permet de « résumer » au mieux une série statistique. La valeur La moyenne de 8, 10, 12 est de 10, ce de cet indice correspond à la valeur qui serait observée si toutes les qui est équivalent à 10, 10, 10. observations étaient identiques. Ainsi, choisir n’importe quelle autre valeur que la moyenne augmente le risque de se tromper (de s’éloigner) davantage par rapport à la valeur qui serait réellement observée. Autrement dit, utiliser la moyenne c’est choisir la valeur qui aura le moins d’incidence sur la série statistique étudiée. Par exemple, un étudiant ayant comme notes au premier semestre : 8, 12, 11, 9 aura une moyenne de 10. S’il lui manque une note, attribuer une note de 12 alors que l’étudiant a eu 8 amène un écart de 4, attribuer une note de 8 alors qu’il a eu 12 entraînera un écart de -4. Utiliser 10 minimisera l’écart à 2. La moyenne est donc le meilleur pari à faire pour éviter de trop biaiser la série. Série conditionnelle L’objectif d’une prédiction reste d’être au plus près de la réalité de l’observation visée. Ainsi, plus il existe d’informations disponibles, meilleure devrait être la prédiction. L’idéal serait de disposer de plusieurs variables pour prédire la donnée manquante 10 , 10. A condition que ces variables autrement, il s’agira d’utiliser la série considérée mais en tenant corrèlent avec la variable présentant la donnée manquante. compte des éventuels sous-groupes (série conditionnelle). Ainsi, si nous connaissons la taille des individus étudiés, et en plus le sexe de ces derniers, il faut utiliser la moyenne du sous-groupe d’appartenance de l’individu pour lequel il manque une donnée. Voici un exemple pour la taille (en cm) de 10 individus. guillaume vallet statistiques 2 (l1s2) 22 I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 Taille 173 185 167 175 171 166 162 178 169 Sexe F H F H H F F F H H La taille moyenne de toutes les personnes de l’échantillon est de 171.7777778 cm. Par contre, la taille pour les femmes de cet échantillon est de 167.8 cm et celle des hommes de 176.75 cm. Ainsi, prendre la moyenne du groupe complet sur-estimerait la taille probable de la personne dont la donnée est manquante si cette dernière est une femme, alors qu’elle sousestimerait la taille d’un homme. Remarque sur les données manquantes et la méthode de la régression Parmi les solutions à votre disposition pour le moment, l’équation de la droite de régression est la meilleure méthode pour déterminer une valeur manquante. Cependant, il existe plusieurs manières de réaliser les calculs pour trouver les données manquantes. Dans le cadre de ce cours, vous pouvez retenir que vous exclurez les valeurs orphelines pour calculer les différents indices (covariance, variance…), autrement dit vous ne devrez prendre que les couples de valeurs complets (voir l’Exercice 2 ci-dessous). guillaume vallet statistiques 2 (l1s2) 23 Exercices d’application Pour les exercices ci-dessous, déterminer la valeur probable de la ou des donnée-s manquante-s en utilisant la meilleure méthode possible. Exercice 1 Un directeur d’école a rencontré 12 familles d’enfants considérés comme agités. Pour chacun de ces enfants, il a proposé un suivi bi-mensuel avec des étudiants en Master 1 en psychologie utilisant un protocole d’accompagnement pour ces enfants. En fin d’année, il compare les résultats des enfants dont les familles ont accepté le suivi par rapport à ceux dont les familles ont refusé le suivi en calculant l’évolution (en points) entre les moyennes du début et de fin d’année. E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 Suivi Oui Non Non Non Oui Oui Non Oui Non Oui Oui Non Evolution 2.3 1.4 -1.2 2.4 0.7 -1.1 1.7 0.3 -0.4 1.5 0.9 Exercice 2 Une enquête sur des coureurs de 100 m cherche à mesurer l’impact de la taille de l’athlète sur le temps de réaction moteur. Pour cela, le temps (en 1000e de secondes) entre le retentissement du pistolet signalant le départ et le début de l’impulsion dans les starting-blocks est enregistré auprès de 10 athlètes. A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 Taille 183 185 178 195 182 187 189 188 191 Temps 32 36 29 51 41 38 45 43 57 Exercice 3 Une psychologue a récolté le nombre de séances moyen de ses patients par type de thérapie sur le dernier trimestre, cependant il lui manque les données de deux patients. Voici les données par patient : guillaume vallet statistiques 2 (l1s2) 24 Correction des exercices d’application Exercice 1 Dans ce cas de figure, nous disposons d’une série statistique numérique pour la différence de point entre la première et la dernière période, ainsi que d’une série statistique nominale pour le suivi des enfants. Nous sommes donc dans le cas d’une prédiction par série conditionnelle, la différence de point selon le suivi. Il faut alors déterminer les moyennes des différences de points par suivi, soit 1.04 pour les enfants n’ayant pas eu de suivi et 0.55 pour ceux ayant bénéficié d’un suivi. Puisque la donnée manquante correspond à un enfant n’ayant pas eu de suivi, son évolution de points serait probablement de 1.04. Exercice 2 Cette fois, nous disposons de deux variables numériques. La première étape consiste à vérifier si ces variables sont bien associées grâce à au calcul du cœfficient de corrélation, qui vaut ici 0.91. Puisque la corrélation entre la taille des athlètes et leur temps moteur est forte, nous pouvons utiliser la méthode de la régression linéaire pour prédire les données manquantes. Dans cet exercice, Y est probablement le temps moteur et X la taille, puisqu’il semble plus logique de vouloir déterminer le temps en connaissant la taille d’un athlète, que l’inverse. Pour rappel, dans le cadre de ce cours, les calculs seront effectués uniquement sur les couples de données complets, autrement dit sans les données des athlètes A5 et A7. L’équation de la droite de régression du temps moteur selon la taille vaut : y = ax + b soit ici y = 1.66x + (−267.91) La taille de l’athlète 7 est manquante, nous pouvons la déterminer avec l’équation suivante : (38+267.90) y = ax + b soit 38 = 1.66x − 267.90 donc x = 1.66 = 184.2771084 L’athlète 7 mesure probablement 184 cm. De même, le temps moteur manquant pour le 5e athlète peut être estimé avec la même équation : y = ax + b soit y = 1.66 × 182 − 267.90 donc y = 34.22 L’athlète 5 devrait avoir un temps moteur d’environ 34 millièmes de seconde.