Regression Multiple PDF
Document Details
Uploaded by BuoyantComputerArt
HEC Lausanne
Tags
Summary
This document discusses multiple regression analysis, including the coefficient of determination and its calculation, as well as its application to real-world examples.
Full Transcript
770 RÉGRESSION MULTIPLE d) A.J. Burnett, un lanceur des New York Yankees, a à son actif un nombre moyen de strikeouts par manche de 0,91 et un nombre moyen de home runs par manche de 0,16. Utiliser l’équation estimée de la régression obtenue à la question (c) pour prévoir le nombre moyen de coups sû...
770 RÉGRESSION MULTIPLE d) A.J. Burnett, un lanceur des New York Yankees, a à son actif un nombre moyen de strikeouts par manche de 0,91 et un nombre moyen de home runs par manche de 0,16. Utiliser l’équation estimée de la régression obtenue à la question (c) pour prévoir le nombre moyen de coups sûrs par manche de A.J. Burnett (remarque : la vraie valeur est de 0,6). e) Il a été suggéré d’utiliser également le nombre moyen de buts comme autre variable indépendante à la question (c). Que pensez-vous de cette suggestion ? 13.3 LE COEFFICIENT DE DÉTERMINATION MULTIPLE Dans le cadre d’une régression linéaire simple, nous avons montré que la somme totale des carrés pouvait être divisée en deux composantes : la somme des carrés de la régression et la somme des carrés des résidus. La même procédure s’applique à la somme des carrés dans le cadre d’une régression multiple. ► Relation entre SCT, SCreg et SCres où SCT = SCreg + SCres (13.7) ∑ ( y − y ) correspond à la somme des carrés totale SCreg = ∑ ( yˆ − y ) correspond à la somme des carrés de la régression SCres = ∑ ( y − yˆ ) correspond à la somme des carrés des résidus SCT = 2 i 2 i i 2 i À cause de la complexité des calculs de ces trois sommes des carrés, nous nous reposons sur les logiciels informatiques pour déterminer ces valeurs. L’analyse de la variance faite par Minitab, présentée à la figure 13.4, fournit les trois valeurs dans le cadre du problème de la société de transport Butler à deux variables indépendantes : SCT = 23,900, SCreg = 21,601 et SCres = 2,299. Avec une seule variable indépendante (le nombre de kilomètres parcourus), l’output de Minitab présenté à la figure 13.3 indiquait les valeurs suivantes : SCT = 23,900, SCreg = 15,871 et SCres = 8,029. La valeur de SCT est identique dans les deux cas, puisqu’elle ne dépend pas de yˆ, mais l’introduction d’une seconde variable indépendante (le nombre de livraisons) accroît SCreg et réduit SCres. En conséquence, l’équation estimée de la régression multiple est plus adaptée aux données observées. Dans le chapitre 12, nous avons mesuré l’adéquation de l’équation estimée de la régression aux données grâce au coefficient de détermination r 2 = SCreg / SCT. Le même concept s’applique à la régression multiple. Le terme coefficient de détermination multiple indique que nous mesurons l’adéquation d’une équation estimée de régression multiple. Le coefficient de détermination multiple, noté R 2 , est calculé de la façon suivante : ► Coefficient de détermination multiple R2 = SCreg/SCT Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. (13.8) 771 Le coefficient de détermination multiple Le coefficient de détermination multiple peut être interprété comme la proportion de la variabilité de la variable dépendante expliquée par l’équation estimée de la régression multiple. En le multipliant par 100, on peut l’interpréter comme le pourcentage de la variation de y expliquée par l’équation estimée de la régression. Dans l’exemple de la société de transport Butler à deux variables indépendantes, R2 = 21,601 = 0,904 23,900 Ainsi, 90,4 % de la variabilité du temps de trajet y est expliquée par l’équation estimée de la régression multiple, ayant pour variables indépendantes le nombre de kilomètres parcourus et le nombre de livraisons effectuées. L’output Minitab de la figure 13.4 fournit également le coefficient de détermination multiple ; il est noté R – sq = 90,4 %. La figure 13.3 indique que la valeur du coefficient de détermination de l’équation estimée de la régression avec une seule variable indépendante, le nombre de kilomètres parcourus ( x1), est égale à 66,4 %. Ainsi, le pourcentage de la variabilité de la durée des trajets expliquée par l’équation estimée de la régression est passé de 66,4 % à 90,4 % en ajoutant le nombre de livraisons effectuées comme seconde variable indépendante. En général, R 2 augmente lorsque des variables indépendantes sont ajoutées au modèle. Ajouter des variables indépendantes réduit l’erreur de prévision, et par conséquent, la somme des carrés des résidus. Puisque SCreg = SCT – SCres, lorsque SCres diminue, SCreg augmente, entraînant une augmentation de R2 = SCreg/SCT. Beaucoup d’analystes préfèrent ajuster R 2 au nombre de variables indépendantes pour éviter de surestimer l’impact de l’ajout d’une variable indépendante sur la part de la variabilité expliquée par l’équation estimée de la régression. Avec n le nombre d’observations et p le nombre de variables indépendantes, le coefficient de détermination multiple ajusté est calculé de la façon suivante : ► Coefficient de détermination multiple ajusté n 1 Ra2 = 1 (1 R 2 ) n p 1 (13.9) Si une variable est ajoutée dans le modèle, R 2 augmente même si cette variable n’est pas statistiquement significative. Le coefficient de détermination multiple ajusté tient compte du nombre de variables indépendantes présentes dans le modèle. Dans l’exemple de la société de transport Butler, avec n = 10 et p = 2, nous avons Ra2 = 1 – (1 – 0,904) 10 – 1 = 0,88 10 – 2 – 1 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 772 RÉGRESSION MULTIPLE Ainsi, en tenant compte de la présence de deux variables indépendantes, le coefficient de détermination multiple ajusté est égal à 0,88. Cette valeur correspond à la valeur R – sq( adj ) = 87,6 % dans l’output Minitab présenté à la figure 13.4. L’écart entre ces deux valeurs tient au fait que nous avons arrondi la valeur de R 2 dans notre propre calcul. REMARQUES Si la valeur de R 2 est faible et que le modèle contient un nombre de variables indépendantes important, le coefficient de détermination ajusté peut prendre une valeur négative. Dans de tels cas, Minitab égalise le coefficient de détermination ajusté à zéro. EXERCICES Méthode 11. Dans l’exercice 1, l’équation estimée de la régression suivante, fondée sur dix observations, était présentée. yˆ = 29,1270 + 0,5906 x1 + 0,4980 x2 ! ! Les valeurs de SCT et SCreg sont respectivement égales à 6 724,125 et 6 216,375. a) Trouver SCres. b) Calculer R 2. c) Calculer Ra2. d) Commenter l’adéquation de la régression aux données. 12. Dans l’exercice 2, dix observations relatives à une variable dépendante y et deux variables indépendantes x1 et x2 étaient données. Pour celles-ci, SCT = 15 182,9 et SCreg = 14 052,2. a) Calculer R 2. b) Calculer Ra2. c) L’équation estimée de la régression explique-t-elle une part importante de la variabilité des données ? Expliquer. 13. Dans l’exercice 3, l’équation estimée de la régression suivante, fondée sur 30 observations, était présentée. yˆ = 17,6 + 3,8 x – 2,3x2 + 7,6 x3 + 2,7 x4 Les valeurs de SCT et SCreg sont respectivement égales à 1 805 et 1 760. a) Calculer R 2. b) Calculer Ra2. c) Commenter l’adéquation de la régression. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 774 MLB RÉGRESSION MULTIPLE développée en utilisant uniquement la vitesse de la balle pour prévoir le nombre moyen de yards parcourus par la balle. L’équation estimée de la régression était yˆ = 117 + 0,988 x1. Comparer l’adéquation de la régression aux données obtenue en utilisant uniquement la vitesse de la balle à celle obtenue en utilisant la vitesse de la balle et l’angle de frappe. 18. Référez-vous à l’exercice 10, dans lequel les statistiques sur les lancers de la ligue principale de baseball (MLB) étaient rapportées (cf. fichier en ligne MLB) pour un échantillon aléatoire de 20 lanceurs de la ligue américaine au cours de la saison 2011 (site Internet de la MLB, 1er mars 2012). a) À la question (c) de l’exercice 10, une équation estimée de la régression a été développée reliant le nombre moyen de coups sûrs par manche aux nombres moyens de strikeouts et de home runs par manche. Quelles sont les valeurs de R 2 et Ra2 ? b) L’équation estimée de la régression est-elle bien adaptée aux données ? Expliquer. c) Supposez que le nombre moyen de buts sur balles par 9 manches lancées soit utilisé comme variable dépendante à la question (c) à la place du nombre moyen de coups sûrs par manche. Est-ce que l’équation estimée de la régression qui utilise le nombre moyen de buts sur balles est mieux adaptée aux données ? Expliquer. 13.4 LES HYPOTHÈSES DU MODÈLE Dans la section 13.1, nous avons introduit le modèle de régression multiple suivant. ► Modèle de régression multiple y = β0 + β1x1 + β2x2 + … βpxp + ε (13.10) Les hypothèses relatives au terme d’erreur ε sont le pendant de celles développées dans le cadre d’un modèle de régression linéaire simple. ► Hypothèses sur le terme d’erreur ε dans le cadre d’un modèle de régression multiple y = β0 + β1x1 + β2x2 + … βpxp + ε 1. Le terme d’erreur ε est une variable aléatoire de moyenne nulle ; c’est-à-dire,EE((ε )) == 00. Conséquences : Pour des valeurs données de x1, x2, … xp, l’espérance mathématique de y est égale à E(y) = β0 + β1x1 + β2x2 + … βpxp (13.11) L’expression (13.11) correspond à l’équation de la régression multiple introduite dans la section 13.1. Dans cette équation, E(y) représente la moyenne de toutes les valeurs possibles de y étant données les valeurs de x1, x2, … xp. 2. La variance de ε , notée σ 2 est la même pour toutes les valeurs des variables indépendantes x1, x2, … xp. Conséquences : La variance de y le long de la droite de régression est égale à σ 2 et est la même pour toutes les valeurs de x1, x2, … xp. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 785 Utiliser l’équation estimée de la régression pour estimer et prévoir Note globale Itinéraire Excursions sur le littoral Repas SeaDream II 86,2 95,5 77,4 90,9 Wind Star 86,1 94,9 76,5 91,5 Wind Surf 86,1 92,1 72,3 89,3 Wind Spirit 85,2 93,5 77,4 91,9 Bateau a) Développer l’équation estimée de la régression qui permet de prévoir la note globale étant données les évaluations faites de l’itinéraire, des excursions et des repas. b) Effectuer un test de Fisher pour déterminer si la relation est globalement significative. Quelle est votre conclusion au seuil α = 0,05 ? c) Effectuer un test de Student pour déterminer si chaque variable indépendante est statistiquement significative. Quelle est votre conclusion au seuil α = 0,05 ? d) Supprimer les variables indépendantes qui ne seraient pas significatives de l’équation estimée de la régression. Quelle équation estimée de la régression recommanderiez-vous ? 26. Dans l’exercice 10, des données (cf. fichier en ligne MLB) relatives aux valeurs de plusieurs statistiques sur les lancers pour un échantillon aléatoire de 20 lanceurs de la ligue américaine de la MLB ont été fournies (site Internet de la MLB, 1er mars 2012). À la question (c) de cet exercice, une équation estimée de la régression a été développée reliant le nombre moyen de coups sûrs par manche aux nombres moyens de strikeouts et de home runs par manche. a) Effectuer un test de Fisher pour déterminer si la relation est globalement significative. Quelle est votre conclusion au seuil α = 0,05 ? b) Effectuer un test de Student pour déterminer si chaque variable indépendante est statistiquement significative. Quelle est votre conclusion au seuil α = 0,05 ? 13.6 UTILISER L’ÉQUATION ESTIMÉE DE LA RÉGRESSION POUR ESTIMER ET PRÉVOIR Les procédures d’estimation de la moyenne de y et de prévision d’une valeur de y dans le cadre d’une régression multiple sont similaires à celles employées dans le cadre d’une régression linéaire simple. Tout d’abord, rappelons qu’au chapitre 12, nous avons montré que l’estimation ponctuelle de la moyenne de y pour une valeur donnée de x était identique à l’estimation ponctuelle d’une valeur individuelle de y. Dans les deux cas, nous avons utilisé yˆ = b0 + b1 x comme estimation ponctuelle. La même procédure est utilisée pour une régression multiple. Nous substituons les valeurs données des variables indépendantes dans l’équation estimée de la régression et utilisons la valeur correspondante de ŷ comme estimation ponctuelle. Supposez que Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. MLB 786 RÉGRESSION MULTIPLE nous voulions, dans le cadre de l’exemple de la société de transport Butler, utiliser l’équation estimée de la régression impliquant x1 (le nombre de kilomètres parcourus) et x2 (le nombre de livraisons effectuées) pour construire deux estimations par intervalle : 3. Un intervalle de confiance du temps moyen de trajet pour tous les camions qui effectuent 100 km et deux livraisons 4. Un intervalle de prévision du temps de trajet d’un camion spécifique qui effectue 100 km et deux livraisons En utilisant l’équation estimée de la régression yˆ = – 0,869 + 0,0611x1 + 0,923x2 avec x1 = 100 et x2 = 2, on obtient yˆ = – 0,869 + 0,0611(100) + 0,923(2) = 7,09 Par conséquent, l’estimation ponctuelle du temps de trajet dans les deux cas est d’environ 7 heures. Pour développer des estimations par intervalle de la moyenne de y et d’une valeur individuelle de y, nous utilisons une procédure similaire à celle utilisée dans le cadre de l’analyse de la régression linéaire simple, avec une seule variable indépendante. Les formules requises vont au-delà de l’objet de cet ouvrage. Les logiciels fournissent souvent des intervalles de confiance dans le cadre de leur fonction d’analyse de la régression. Le tableau 13.4 contient les intervalles de confiance et de prévision à 95 % dans le cadre de l’exemple de la société Butler pour des valeurs particulières de x1 et x2 , obtenus avec Minitab. Notez que l’intervalle de prévision est plus large que l’intervalle de confiance. Cet écart reflète le fait que, pour des valeurs données de x1 et x2 , nous pouvons estimer le temps de trajet moyen pour tous les camions de façon plus précise que nous ne pouvons prévoir le temps de trajet d’un camion spécifique. Tableau 13.4 Intervalles de confiance et de prévision à 95 % dans le cadre de l’exemple de la société Butler Intervalle de confiance Intervalle de prévision Valeur de x1 Valeur de x2 Limite inférieure Limite supérieure Limite inférieure Limite supérieure 50 2 3,146 4,924 2,414 5,656 50 3 4,127 5,789 3,368 6,548 50 4 4,815 6,948 4,157 7,607 100 2 6,258 7,926 5,500 8,683 100 3 7,385 8,645 6,520 9,510 100 4 8,135 9,742 7,362 10,515 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 789 Des variables indépendantes qualitatives d) Construire un intervalle de prévision à 95 % de la note de satisfaction globale pour Finger Lakes Investments, en supposant que l’entreprise atteigne des niveaux de service égaux à 3 pour le coût de transaction et la vitesse d’exécution. 13.7 DES VARIABLES INDÉPENDANTES QUALITATIVES Les variables indépendantes peuvent être qualitatives ou quantitatives. Jusqu’à présent, les exemples considérés concernaient des variables indépendantes quantitatives telles que la population d’étudiants, la distance parcourue et le nombre de livraisons. Dans beaucoup de situations, cependant, nous devons travailler avec des variables indépendantes qualitatives telles que le sexe (homme ou femme), le mode de paiement (espèces, carte de crédit, chèque), etc. Le but de cette section est de montrer comment sont traitées les variables qualitatives dans l’analyse de la régression. Pour illustrer leur utilisation et leur interprétation, nous considérons un problème rencontré par les responsables de la société Johnson Filtration. 13.7.1 Un exemple : la société Johnson Filtration La société Johnson Filtration offre des services de maintenance des systèmes de filtration d’eau dans le Sud de la Floride. Des clients souhaitant entretenir leurs systèmes de filtration d’eau, contactent la société Johnson. Pour estimer le temps et le coût du service offert, les responsables de la société Johnson souhaitent prévoir le temps de réparation nécessaire à chaque demande d’intervention. Dans ce contexte, le temps de réparation (en heures) correspond à la variable dépendante. Le temps de réparation est supposé lié à deux facteurs : le nombre de mois écoulés depuis la dernière Tableau 13.5 Données associées à l’exemple de la société Johnson Filtration Demande d’intervention Mois écoulés depuis la dernière intervention Type de réparation Durée de la réparation en heures 1 2 Électrique 2,9 2 6 Mécanique 3,0 3 8 Électrique 4,8 4 3 Mécanique 1,8 5 2 Électrique 2,9 6 7 Électrique 4,9 7 9 Mécanique 4,2 8 8 Mécanique 4,8 9 4 Électrique 4,4 10 6 Électrique 4,5 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 790 RÉGRESSION MULTIPLE intervention et le type de problème nécessitant réparation (mécanique ou électrique). Les données relatives à un échantillon de dix demandes d’intervention sont présentées dans le tableau 13.5. Soient y le temps de réparation en heures et x1 le nombre de mois écoulés depuis la dernière intervention. Le modèle de régression utilisant x1 pour prévoir y est y = β 0 + β1 x1 + ε En utilisant Minitab pour estimer l’équation de la régression, nous obtenons les résultats présentés à la figure 13.7. L’équation estimée de la régression est yˆ = 2,15 + 0,304 x1 (13.16) Au seuil de signification de 0,05, la valeur p associée au test de Student (ou au test de Fisher), égale à 0,016, indique que le nombre de mois écoulés depuis la dernière intervention est significativement lié à la durée de la réparation. R 2 = 53,4 % indique que x1 explique à lui seul 53,4 % de la variabilité de la durée des réparations. Pour incorporer le type de réparation dans le modèle de régression, nous définissons la variable suivante : ⎧0 si la réparation est de type mécanique x2 = ⎨ ⎩1 si la réparation est de type électrique The regression equation is Time = 2.15 + 0.304 Months Predictor Constant Months S = 0.7810 Coef 2.1473 0.3041 SE Coef 0.6050 0.1004 R – sq = 53.4 % T 3.55 3.03 p 0.008 0.016 R – sq (adj) = 47.6 % Analysis of Variance SOURCE Regression Residual Error Total DF 1 8 9 SS 5.5960 4.8800 10.4760 MS 5.5960 0.6100 F 9.17 p 0.016 Figure 13.7 Output Minitab dans le cadre de l’exemple de la société Johnson Filtration, avec, pour variable indépendante, le nombre de mois écoulés depuis la dernière intervention Les noms des variables apparaissant dans l’output Minitab « Month » (mois) et « Time » (durée) ont été enregistrés en tant qu’intitulé des colonnes de la feuille de calcul Minitab. Ainsi, x1 = Month et y = Time. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 791 Des variables indépendantes qualitatives Dans l’analyse de la régression, x2 est qualifiée de variable muette ou variable indicatrice. Grâce à cette variable muette, nous pouvons écrire le modèle de régression multiple comme suit y = β 0 + β1 x1 + β 2 x2 + ε Le tableau 13.6 (cf. fichier en ligne Johnson) correspond à l’ensemble de données révisé, incluant les valeurs de la variable muette. En utilisant Minitab pour estimer les paramètres du modèle et les données du tableau 13.6, nous obtenons l’équation estimée de la régression multiple suivante (cf. figure 13.8). yˆ = 0,93 + 0,388 x1 + 1,26 x2 (13.17) Au seuil de signification de 0,05, la valeur p égale à 0,01, associée au test de Fisher (F = 21,36), indique que la relation est significative. La partie de l’output (figure 13.8) relative au test de Student indique qu’à la fois, le nombre de mois écoulés depuis la dernière intervention (la valeur p est égale à 0,000) et le type de réparation (la valeur p est égale à 0,005) sont statistiquement significatifs. De plus, R 2 = 85,9 % et Ra2 = 81,9 % indiquent que l’équation estimée de la régression explique une bonne part de la variabilité de la durée des réparations. Ainsi, l’équation (13.17) peut se révéler utile pour estimer le temps de réparation nécessaire pour répondre à différentes demandes. 13.7.2 Interpréter les paramètres L’équation de régression multiple dans l’exemple de la société Johnson Filtration est E ( y ) = β 0 + β1 x1 + β 2 x2 (13.18) Pour comprendre comment interpréter les paramètres β 0 , β1 et β 2 lorsqu’une variable qualitative est présente, considérons le cas où x2 = 0 (réparation mécanique). En notant E ( y mécanique) l’espérance mathématique de la durée de réparation sachant que cette dernière est de type mécanique, nous obtenons E ( y mécanique) = β 0 + β1 x1 + β 2 (0) = β0 + β1 x1 (13.19) De même, pour une réparation de type électrique ( x2 = 1), nous obtenons E ( y électrique) = β 0 + β1 x1 + β 2 (1) = β 0 + β1 x1 + β 2 = ( β0 + β 2 ) + β1 x1 (13.20) En comparant les équations (13.19) et (13.20), il apparaît que la durée de réparation est une fonction linéaire de x1 à la fois pour des réparations mécaniques et électriques. La pente de ces deux équations est β1 , mais l’ordonnée à l’origine diffère. Elle est égale à β0 dans l’équation (13.19) pour des réparations de type mécanique et à ( β 0 + β 2 ) dans l’équation (13.20) pour des réparations de type électrique. Ainsi, β 2 indique l’écart entre le temps moyen de réparation d’un problème électrique et le temps moyen de réparation d’un problème mécanique. Si β 2 est positif, le temps moyen de réparation d’un problème électrique sera supérieur à celui d’un problème mécanique ; si β 2 est négatif le temps moyen de réparation Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Johnson 792 RÉGRESSION MULTIPLE d’un problème électrique sera inférieur à celui d’un problème mécanique. Enfin, si β 2 = 0, il n’y a aucun écart entre la durée moyenne de réparation d’un problème électrique et d’un problème mécanique et la durée de réparation n’est pas liée à son type. En utilisant l’équation estimée de la régression multiple yˆ = 0,93 + 0,388 x1 + 1,26 x2 , 3 + 0,388 x1 + 1,26 x2 , nous constatons que 0,93 est l’estimation de β 0 et 1,26 l’estimation de β 2. Ainsi, lorsque x2 = 0 (réparation mécanique), yˆ = 0,93 + 0,388 x1 (13.21) et lorsque x2 = 1 (réparation électrique), yˆ = 0,93 + 0,388 x1 + 1,26(1) = 2,19 + 0,388 x1 (13.22) L’utilisation d’une variable muette pour désigner le type de réparation fournit deux équations permettant de prévoir la durée des réparations ; l’une correspond aux réparations mécaniques, l’autre aux réparations électriques. De plus, avec b2 = 1,26, nous savons qu’en général, les réparations électriques nécessitent 1,26 heure de plus que les réparations mécaniques. y E 5 E Durée de la réparation (en heures) 4 3 y= ^ 2 y= ^ 9+ 2,1 8x 1 8 0,3 3 0,9 M e) iqu tr lec (É ) que E, E 88 x 1 ,3 +0 E, M E ni éca M (M M 1 M = réparation mécanique E = réparation électrique 0 1 2 3 4 5 6 7 Mois écoulés depuis la dernière intervention 8 9 Figure 13.8 Nuage de points des données de la société Johnson Filtration issues du tableau 13.6 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 10 x1 793 Des variables indépendantes qualitatives La figure 13.9 correspond au graphique des données de la société Johnson, présentées dans le tableau 13.6. La durée de réparation (en heures) est représentée sur l’axe vertical et le nombre de mois écoulés depuis la dernière intervention ( x1) est représenté sur l’axe horizontal. Un point correspondant à une réparation mécanique est indiqué par un M et un point correspondant à une réparation électrique est indiqué par un E. Les équations (13.21) et (13.22) sont représentées sur ce graphique pour illustrer graphiquement les deux équations qui peuvent être utilisées pour prévoir la durée d’une réparation, l’une correspondant à des réparations mécaniques, l’autre à des réparations électriques. 13.7.3 Des variables qualitatives plus complexes Dans la mesure où la variable qualitative mentionnée dans l’exemple de la société Johnson Filtration a deux niveaux (mécanique ou électrique), définir une variable muette en indiquant une réparation de type mécanique par 0 et une réparation de type électrique par 1 est simple. Toutefois, lorsqu’une variable muette a plus de deux niveaux, il faut être attentif à la façon dont elle est définie et interprétée. Comme nous le verrons, si une variable qualitative a k niveaux, k – 1 variables muettes sont nécessaires, chacune prenant les valeurs 0 ou 1. Une variable qualitative à k niveaux doit être modélisée en utilisant k – 1 variables muettes. Il convient d’être attentif à la façon dont elles seront définies et interprétées. Par exemple, supposons qu’un fabricant de photocopieuses ait réparti ses ventes dans un État particulier en trois régions : A, B et C. Les responsables souhaitent utiliser les techniques d’analyse de la régression pour prévoir le nombre de photocopieuses vendues par semaine. En prenant pour variable dépendante le nombre de photocopieuses vendues, ils considèrent plusieurs variables indépendantes (le nombre de vendeurs, les dépenses publicitaires, etc.). Supposons que les responsables pensent que la région de vente est également un facteur important pour prévoir le nombre de photocopieuses vendues. Puisque la région de vente est une variable qualitative à trois niveaux, A, B et C, nous avons besoin de 3 – 1 = 2 variables aléatoires pour représenter la région de vente. Chaque variable peut prendre la valeur 0 ou 1, comme indiqué ci-dessous. ⎧1 si la région de vente est B x1 = ⎨ ⎩0 sinon ⎧1 si la région de vente est C x2 = ⎨ ⎩0 sinon Avec cette définition, nous obtenons les valeurs suivantes pour x1 et x2. Région x1 x2 A 0 0 B 1 0 C 0 1 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 794 RÉGRESSION MULTIPLE Les observations relatives à la région A correspondent à x1 = 0 et x2 = 0 ; celles relatives à la région B correspondent à x1 = 1 et x2 = 0 ; celles relatives à la région C à x1 = 0 et x2 = 1. L’équation de la régression reliant l’espérance mathématique du nombre de photocopieuses vendues, E ( y ), aux variables muettes s’écrit : E ( y ) = β 0 + β1 x1 + β 2 x2 Pour aider à l’interprétation des paramètres β 0 , β1 et β 2 , considérons les trois variantes suivantes de l’équation de la régression. E ( y région A) = β 0 + β1 (0) + β 2 (0) = β 0 E ( y région B) = β 0 + β1 (1) + β 2 (0) = β 0 + β1 E ( y région C) = β 0 + β1 (0) + β 2 (1) = β 0 + β 2 Ainsi, β 0 correspond à l’espérance mathématique du nombre de photocopieuses vendues dans la région A ; β1 correspond à l’écart entre le nombre moyen d’unités vendues dans la région B et le nombre moyen d’unités vendues dans la région A ; et β 2à l’écart entre le nombre moyen d’unités vendues dans la région C et le nombre moyen d’unités vendues dans la région A. Deux variables aléatoires étaient nécessaires dans la mesure où la région de vente est une variable qualitative à trois niveaux. Le fait que x1 = 0 et x2 = 0 indique la région A, x1 = 1 et x2 = 0 la région B et x1 = 0 et x2 = 1 la région C est arbitraire. Par exemple, nous aurions pu choisir d’indiquer la région A par x1 = 1 et x2 = 0, la région B par x1 = 0 et x2 = 0 et la région C par x1 = 0 et x2 = 1. Dans ce cas, β1 correspondrait à l’écart entre le nombre moyen d’unités vendues dans les régions A et B ; et β 2à l’écart entre le nombre moyen d’unités vendues dans les régions C et B. Le point important à retenir est que lorsqu’une variable qualitative a k niveaux, k – 1 variables muettes sont nécessaires dans le modèle de régression multiple. Ainsi, si une quatrième région D était ajoutée dans l’exemple précédent, trois variables muettes seraient nécessaires pour effectuer l’analyse. Elles pourraient éventuellement être codées de la façon suivante. ⎧1 si la région de vente est B x1 = ⎨ ⎩0 sinon ⎧1 si la région de vente est C x2 = ⎨ ⎩0 sinon ⎧1 si la région de vente est D x3 = ⎨ ⎩0 sinon Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 775 Les hypothèses du modèle 3. Les valeurs de ε sont indépendantes. Conséquences : La valeur de ε. associée à une valeur particulière des variables indépendantes n’est pas liée à la valeur de ε associée à d’autres valeurs des variables indépendantes. 4. Le terme d’erreur ε est une variable aléatoire normalement distribuée, reflétant l’écart entre la valeur y et la valeur estimée de y par β0 + β1x1 + β2x2 + … βpxp. Conséquences : Puisque β0, β1, β2, βp sont constants pour des valeurs données de x1, x2, … xp, la variable dépendante y est également une variable aléatoire normalement distribuée. Pour approfondir l’étude de la forme de la relation exprimée par l’équation (13.11), considérez l’équation de la régression multiple à deux variables indépendantes suivante. E ( y ) = β 0 + β1 x1 + β 2 x2 Le graphique de cette équation est représenté par un plan dans un espace à trois dimensions. La figure 13.5 en est une illustration. Notez que la valeur de ε indiquée correspond à la différence entre la valeur réelle de y et la valeur estimée E ( y ) lorsque x1 = x1* et x2 = x2*. Valeur de y lorsque x1 = x *1 et x2 = x *2 y b0 Plan correspondant à E (y ) = b0 + b1x1 + b2x2 e E (y ) lorsque x1 = x *1 et x2 = x *2 x *2 x2 x *1 (x *1 , x *2 ) Point correspondant à x1 = x *1 et x2 = x *2 Figure 13.5 Graphique de l’équation de la régression dans le cadre de l’analyse d’une régression multiple à deux variables indépendantes Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. x1 776 RÉGRESSION MULTIPLE Dans l’analyse de la régression, le terme variable de réponse est souvent utilisé à la place du terme variable dépendante. De plus, puisque l’équation de la régression multiple génère une surface, son graphique est appelé surface de réponse. 13.5 LES TESTS DE SIGNIFICATION Dans cette section, nous montrons comment effectuer des tests de signification dans le cadre d’une relation de régression multiple. Les tests de signification utilisés dans une régression linéaire simple étaient les tests t de Student et F de Fisher. Dans le cadre d’une régression linéaire simple, les deux tests aboutissent à la même conclusion ; c’est-à-dire, si l’hypothèse nulle est rejetée, nous concluons que β1 ≠ 0. Dans le cadre d’une régression multiple, les tests de Student et de Fisher n’ont pas le même objectif. 1. Le test F de Fisher est utilisé pour déterminer s’il existe une relation significative entre la variable dépendante et l’ensemble des variables indépendantes ; on parle de test de signification globale. 2. Le test t de Student est utilisé pour déterminer si chacune des variables indépendantes est significative. Un test de Student est effectué pour chaque variable indépendante du modèle ; on parle de test de signification individuelle. Dans la suite, nous explicitons les tests de Student et de Fisher et appliquons chacun d’entre eux au problème de régression multiple de la société de transport Butler. 13.5.1 Test de Fisher Le modèle de régression multiple tel que défini dans la section 13.4 est y = β 0 + β1 x1 + β 2 x2 + … + β p x p + ε Les hypothèses du test de Fisher concernent les paramètres du modèle de régression multiple. H 0 : β1 = β 2 = … = β p = 0 H a : Au moins un des paramètres n’est pas égal à zéro Si H 0 est rejetée, le test nous permet de conclure qu’au moins un des paramètres n’est pas égal à zéro et que la relation globale entre y et l’ensemble des variables indépendantes x1 , x2 , …, x p est significative. Cependant, si H 0 ne peut être rejetée, nous ne disposons pas de preuves statistiques suffisantes pour conclure à l’existence d’une relation significative. Avant de décrire les étapes d’un test de Fisher, nous devons revoir le concept de moyenne des carrés. La moyenne des carrés est une somme de carrés divisée par le nombre de degrés de liberté correspondant. Dans le cas d’une régression multiple, la somme des carrés totale (SCT) a n – 1 degrés de liberté, la somme des carrés de la régression (SCreg) a p degrés de liberté et la somme des carrés des résidus (SCres) a n – p – 1 degrés de liberté. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 777 Les tests de signification Par conséquent, la moyenne des carrés de la régression (MCreg) et la moyenne des carrés des résidus (MCres) sont respectivement égales à SCreg p (13.12) SCres n– p –1 (13.13) MCreg = et MCres = Comme nous l’avons vu au chapitre 12, MCres constitue un estimateur sans biais de σ 2 , la variance du terme d’erreur ε. Si H 0 : β1 = β 2 = … = β p = 0 est vraie, MCreg constitue également un estimateur sans biais de σ 2 , et la valeur de MCreg / MCres est proche de 1. Cependant, si H 0 est fausse, MCreg surestime σ 2 et la valeur de MCreg / MCres augmente. Pour déterminer à partir de quelle valeur de MCreg / MCres l’hypothèse nulle peut être rejetée, nous nous basons sur le fait que si H 0 est vraie et si les hypothèses sur le modèle de régression multiple sont validées, la distribution d’échantillonnage de MCreg / MCres suit une loi de Fisher avec p degrés de liberté au numérateur et n – p – 1 degrés de liberté au dénominateur. Un résumé du test de signification de Fisher dans le cadre d’une régression multiple suit. ► Test de signification globale de Fisher H0 : β1 = β2 … = βp = 0 Ha : Au moins un des paramètres n’est pas égal à zéro ► Statistique de test F = MCreg MCres (13.14) ► Règle de rejet Approche par la valeur p : Rejet de H0 si la valeur p ≤ α Approche par la valeur critique : Rejet de H0 si F ≥ Fα où Fα est basé sur la loi de Fisher à p degrés de liberté au numérateur et n – p – 1 degrés de liberté au dénominateur. Appliquons le test de Fisher au cas de la société de transport Butler. Avec deux variables indépendantes, les hypothèses sont écrites de la façon suivante : H 0 : β1 = β 2 = 0 H a : β1et/ou β 2 n’est pas égal à zéro La figure 13.6 correspond à l’output de la régression multiple effectuée par Minitab, avec pour variables indépendantes, le nombre de kilomètres parcourus ( x1) et le nombre de livraisons effectuées ( x2). Dans la partie consacrée à l’analyse de la variance, Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Butler 778 RÉGRESSION MULTIPLE The regression equation is Time = – 0.869 + 0.0611 Miles + 0.923 Deliveries Predictor Constant Miles Deliveries Coef – 0.8687 0.061135 0.9234 S = 0.5731 R – sq = 90.4 % SE Coef 0.9515 0.009888 0.2211 T – 0.91 6.18 4.18 p 0.392 0.000 0.004 R – sq (adj) = 87.6 % Analysis of Variance SOURCE Regression Residual Error Total DF 2 7 9 SS 21.601 2.299 23.900 MS 10.800 0.328 F 32.88 p 0.000 Figure 13.6 Output Minitab obtenu dans le cadre de l’exemple de la société Butler avec deux variables indépendantes, le nombre de kilomètres parcourus (x1) et le nombre de livraisons effectuées (x2) on constate que MCreg est égale à 10,8, MCres est égale à 0,328. D’après l’équation (13.14), la statistique de test F est égale à F= 10,8 = 32,9 0,328 Notez que la valeur F fournie par Minitab est égale à 32,88. La valeur diffère légèrement de la nôtre dans la mesure où nous avons arrondi les valeurs de MCreg et MCres dans nos calculs. Au seuil de signification α = 0,01, la valeur p = 0,000 dans la dernière colonne du tableau d’analyse de la variance (cf. figure 13.6) indique que nous pouvons rejeter H 0 : β1 = β 2 = 0 puisque la valeur p est inférieure à α = 0,01. De même, la table 4 de l’annexe B révèle qu’avec deux degrés de liberté au numérateur et sept degrés de liberté au dénominateur, F0,01 = 9,55. Puisque 32,9 > 9,55, nous rejetons H 0 : β1 = β 2 = 0 et concluons qu’une relation significative existe entre la durée des trajets y et les deux variables indépendantes, le nombre de kilomètres parcourus et le nombre de livraisons effectuées. Comme noté précédemment, la moyenne des carrés des résidus constitue un estimateur sans biais de σ 2 , la variance du terme d’erreur ε. D’après la figure 13.6, l’estimation de σ 2 est MCres = 0,328. La racine carrée de MCres correspond à l’estimation de l’écart type du terme d’erreur. Comme défini dans la section 12.5, cet écart type est appelé erreur type de l’estimation et est noté s. Par conséquent, s = MCres = 0,328 = 0,573. Notez que la valeur de l’erreur type de l’estimation apparaît dans l’output Minitab (cf. figure 13.6). Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 779 Les tests de signification Tableau 13.3 Tableau ANOVA dans le cadre d’un modèle de régression multiple à p variables indépendantes Source de la variation Somme des carrés Degrés de liberté Régression SCreg p Résidu SCres n– p– 1 Totale SCT n– 1 Moyenne des carrés MCreg = MCres = SCreg p F F= MCreg MCres SCres n – p –1 Le tableau 13.3 correspond au tableau d’analyse de la variance (ANOVA) qui fournit les résultats du test de Fisher dans le cadre d’un modèle de régression multiple. La valeur de la statistique de test F apparaît dans la dernière colonne et peut être comparée à Fα avec p degrés de liberté au numérateur et n – p – 1 degrés de liberté au dénominateur, afin d’obtenir la conclusion du test d’hypothèses. En revenant à la figure 13.6, représentant l’output Minitab dans le cadre du problème de la société de transport Butler, on constate que le tableau d’analyse de la variance de Minitab contient cette information. De plus, Minitab fournit la valeur p associée à la statistique de test F. 13.5.2 Test de Student Si le test de Fisher prouve que la relation de régression multiple est significative, un test de Student doit être effectué pour déterminer si chaque variable indépendante est significative. Le test de signification individuelle de Student est présenté ci-dessous. ► Test de signification individuelle de Student Pour tout paramètre βi, H0 : βi = 0 Ha : βi ≠ 0 ► Statistique de test t = bi sb i ► Règle de rejet Approche par la valeur p : Rejet de H0 si la valeur p ≤ α Approche par la valeur critique : Rejet de H0 si t ≤ tα/2 ou si t ≥ tα/2 où tα/2 est basé sur la distribution de Student à n – p – 1 degrés de liberté. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. (13.15) 780 RÉGRESSION MULTIPLE Dans la statistique de test, sb correspond à l’estimation de l’écart type de bi. La i valeur de sb est fournie par le logiciel. i Effectuons le test de Student dans le cadre du problème de régression de la société Butler. Le résultat de la programmation sous Minitab, reproduit à la figure 13.6, révèle que b1 est égal à 0,061135, b2 à 0,9234, sb à 0,009888 et sb à 0,2211. Ainsi, en utilisant l’équa2 1 tion (13.15), on obtient les valeurs suivantes pour les statistiques des tests d’hypothèses relatifs aux paramètres β1 et β 2 : t = 0,061135 / 0,009888 = 6,18 t = 0,9234 / 0,2211 = 4,18 Notez que ces deux valeurs t et les valeurs p correspondantes sont fournies par Minitab (cf. figure 13.6). Au seuil α = 0,01, les valeurs p égales à 0,000 et 0,004 permettent de conclure au rejet des hypothèses H 0 : β = 0 et H 0 : β 2 = 0. Par conséquent, les deux 1 paramètres sont statistiquement significatifs. De même, la table 2 de l’annexe B indique qu’avec n – p – 1 = 10 – 2 – 1 = 7 degrés de liberté, la valeur critique est égale à t0,005 = 3,499. Avec 6,18 > 3,499, on rejette l’hypothèse H 0 : β1 = 0. De façon similaire, puisque 4,18 > 3,499, on rejette également l’hypothèse H 0 : β 2 = 0. 13.5.3 Multi-colinéarité Nous utilisons le terme « variables indépendantes » dans l’analyse de la régression pour parler des variables utilisées pour expliquer la valeur de la variable dépendante. Ce terme ne signifie pas que les variables indépendantes sont elles-mêmes indépendantes au sens statistique du terme. Au contraire, la plupart des variables indépendantes dans un problème de régression multiple sont plus ou moins corrélées les unes aux autres. Par exemple, dans l’exemple de la société de transport Butler impliquant deux variables indépendantes, le nombre de kilomètres parcourus et le nombre de livraisons effectuées, nous pouvons considérer le nombre de kilomètres parcourus comme une variable dépendante, expliquée par le nombre de livraisons effectuées. Il est alors possible de calculer le coefficient de corrélation de l’échantillon rx x pour déterminer dans quelle mesure ces deux variables 1 2 sont liées. En appliquant ce raisonnement, on trouve rx x = 0,16. Ainsi, les deux variables 1 2 indépendantes sont, dans une certaine mesure, linéairement associées. En analyse de la régression multiple, la multi-colinéarité fait référence à la corrélation entre les variables indépendantes. Pour approfondir les éventuels problèmes liés à la multi-colinéarité, considérons une variante de l’exemple de la société de transport Butler. Au lieu de considérer que x2 correspond au nombre de livraisons, posons x2 égal au nombre de litres de gasoil consommés. Clairement, x1 (le nombre de kilomètres parcourus) et x2 sont liés : le nombre de litres de gasoil consommés dépend du nombre de kilomètres parcourus. Par conséquent, nous devrions logiquement conclure que x1 et x2 sont des variables indépendantes fortement corrélées. Supposez que nous obtenions l’équation yˆ = b0 + b1 x1 + b2 x2 et que le test de Fisher révèle que la relation est significative. Supposez alors que nous effectuions un test Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 781 Les tests de signification de Student sur β1 pour déterminer si β1 ≠ 0, et que nous ne puissions rejeter H 0 : β1 = 0. Ce résultat signifie-t-il que le temps de trajet n’est pas lié à la distance parcourue ? Pas nécessairement. Ce que cela signifie probablement, c’est qu’avec la présence de x2 dans le modèle, x1 ne contribue pas de façon significative à déterminer la valeur de y. Cette interprétation fait sens dans notre exemple : si nous connaissons la quantité de gasoil consommée, la connaissance du nombre de kilomètres parcourus n’apporte pas beaucoup d’informations complémentaires, utiles pour prévoir y. De même, un test de Student pourrait conduire à conclure que β 2 = 0, dans la mesure où la connaissance de la quantité de gasoil consommée n’apporte pas d’informations complémentaires significatives dans un modèle comprenant déjà le nombre de kilomètres parcourus. Pour résumer, dans le test de signification individuelle de Student, la multicolinéarité peut conduire à conclure qu’aucun des paramètres, pris individuellement, n’est significativement différent de zéro, alors que le test de signification globale de Fisher révèle une relation significative. Ce problème ne se pose pas lorsqu’il y a peu de corrélation entre les variables indépendantes. Un coefficient de corrélation entre deux variables indépendantes supérieur à + 0,70 ou inférieur à – 0,70 indique l’existence de potentiels problèmes liés à la multi-colinéarité. Les statisticiens ont développé plusieurs tests pour déterminer si l’ampleur de la multi-colinéarité pouvait poser problème. Selon le test de la règle de raison, la multicolinéarité pose potentiellement problème si la valeur absolue du coefficient de corrélation de l’échantillon entre deux variables indépendantes est supérieure à 0,7. Les autres types de test sont plus avancés et vont au-delà de l’objet de cet ouvrage. Lorsque les variables indépendantes sont fortement corrélées, il n’est pas possible de déterminer l’effet propre d’une variable indépendante particulière sur la variable dépendante. Si possible, essayez de ne pas inclure dans le modèle des variables indépendantes fortement corrélées. En pratique, cependant, il est difficile de mettre en œuvre cette recommandation. Lorsque vous êtes en présence de multi-colinéarité, séparer l’impact individuel des variables indépendantes sur la variable dépendante est difficile. REMARQUES D’ordinaire, la multi-colinéarité n’affecte pas la procédure d’analyse de la régression ou l’interprétation des résultats. Toutefois, lorsque la multi-colinéarité est très prononcée – c’est-à-dire lorsque plusieurs variables indépendantes sont fortement corrélées – l’interprétation des résultats du test de Student peut s’avérer difficile. En plus du type de problème illustré dans cette section, une forte multi-colinéarité peut conduire à des estimations par les moindres carrés de signe opposé. En d’autres termes, lors de Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 781 Les tests de signification de Student sur β1 pour déterminer si β1 ≠ 0, et que nous ne puissions rejeter H 0 : β1 = 0. Ce résultat signifie-t-il que le temps de trajet n’est pas lié à la distance parcourue ? Pas nécessairement. Ce que cela signifie probablement, c’est qu’avec la présence de x2 dans le modèle, x1 ne contribue pas de façon significative à déterminer la valeur de y. Cette interprétation fait sens dans notre exemple : si nous connaissons la quantité de gasoil consommée, la connaissance du nombre de kilomètres parcourus n’apporte pas beaucoup d’informations complémentaires, utiles pour prévoir y. De même, un test de Student pourrait conduire à conclure que β 2 = 0, dans la mesure où la connaissance de la quantité de gasoil consommée n’apporte pas d’informations complémentaires significatives dans un modèle comprenant déjà le nombre de kilomètres parcourus. Pour résumer, dans le test de signification individuelle de Student, la multicolinéarité peut conduire à conclure qu’aucun des paramètres, pris individuellement, n’est significativement différent de zéro, alors que le test de signification globale de Fisher révèle une relation significative. Ce problème ne se pose pas lorsqu’il y a peu de corrélation entre les variables indépendantes. Un coefficient de corrélation entre deux variables indépendantes supérieur à + 0,70 ou inférieur à – 0,70 indique l’existence de potentiels problèmes liés à la multi-colinéarité. Les statisticiens ont développé plusieurs tests pour déterminer si l’ampleur de la multi-colinéarité pouvait poser problème. Selon le test de la règle de raison, la multicolinéarité pose potentiellement problème si la valeur absolue du coefficient de corrélation de l’échantillon entre deux variables indépendantes est supérieure à 0,7. Les autres types de test sont plus avancés et vont au-delà de l’objet de cet ouvrage. Lorsque les variables indépendantes sont fortement corrélées, il n’est pas possible de déterminer l’effet propre d’une variable indépendante particulière sur la variable dépendante. Si possible, essayez de ne pas inclure dans le modèle des variables indépendantes fortement corrélées. En pratique, cependant, il est difficile de mettre en œuvre cette recommandation. Lorsque vous êtes en présence de multi-colinéarité, séparer l’impact individuel des variables indépendantes sur la variable dépendante est difficile. REMARQUES D’ordinaire, la multi-colinéarité n’affecte pas la procédure d’analyse de la régression ou l’interprétation des résultats. Toutefois, lorsque la multi-colinéarité est très prononcée – c’est-à-dire lorsque plusieurs variables indépendantes sont fortement corrélées – l’interprétation des résultats du test de Student peut s’avérer difficile. En plus du type de problème illustré dans cette section, une forte multi-colinéarité peut conduire à des estimations par les moindres carrés de signe opposé. En d’autres termes, lors de Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite.