Modèle de régression multiple PDF

Le modèle de régression multiple 757 nous poursuivons notre étude de l’analyse de la régression en considérant des situations impliquant au moins deux variables indépendantes. Il s’agit de l’analyse de la régression multiple, qui nous permet de considérer plus de facteurs et donc d’obtenir de meilleures estimations que dans le cadre d’une régression linéaire simple. 13.1 LE MODÈLE DE RÉGRESSION MULTIPLE L’analyse de la régression multiple est l’étude de la relation entre une variable dépendante y et au moins deux variables indépendantes. Dans le cas général, nous noterons p le nombre de variables indépendantes. 13.1.1 Modèle de régression et équation de la régression Les concepts de modèle de régression et d’équation de la régression, introduits dans le chapitre précédent, sont applicables au cas multiple. L’équation qui décrit comment est reliée la variable dépendante y aux variables indépendantes x1 , x2 , …, xp et à un terme d’erreur, est appelée modèle de régression multiple. Nous supposons pour commencer que le modèle de régression multiple est de la forme suivante. ► Modèle de régression multiple y = β 0 + β1x1 + β2 x 2 +... + β p x p + ε (13.1) Dans le modèle de régression multiple, β 0 , β1 , β 2 , …, βp sont les paramètres de la population et le terme d’erreur ε (la lettre grecque epsilon) est une variable aléatoire. Un examen approfondi de ce modèle révèle que y est une fonction linéaire de x1 , x2 , …, xp (la partie β 0 + β1 x1 + β 2 x2 + … + βp xp) plus un terme d’erreur ε. Le terme d’erreur prend en compte la variabilité de y qui n’est pas expliquée par l’impact linéaire des p variables indépendantes. Dans la section 13.4, nous discuterons des hypothèses d’un modèle de régression multiple et du terme d’erreur ε. L’une des hypothèses est que la moyenne ou espérance mathématique de ε est nulle. Par conséquent, la moyenne ou espérance mathématique de y, notée E ( y ), est égale à β 0 + β1 x1 + β 2 x2 + … + β p x p. L’équation qui décrit comment la moyenne de y est liée à x1 , x2 , …, x p est appelée l’équation de la régression multiple. ► Équation de la régression multiple E ( y ) = β0 + β1x1 + β2 x 2 +... + β p x p (13.2) 13.1.2 Équation estimée de la régression multiple Si les valeurs de β 0 , β1 , β 2 , …, β p étaient connues, l’expression (13.2) pourrait être utilisée pour calculer la moyenne de y pour des valeurs données de x1 , x2 , … xp Malheureusement, ces paramètres ne sont généralement pas connus et doivent être estimés à partir des données d’un échantillon. On utilise un échantillon aléatoire simple pour calculer les statistiques Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 758 RÉGRESSION MULTIPLE d’échantillon b0 , b1 , b2 , …, bp utilisées comme estimateurs ponctuels des paramètres de la population β 0 , β1 , 2 , …, p Ces statistiques d’échantillon fournissent l’équation estimée de la régression multiple suivante. ► Équation estimée de la régression multiple où (13.3) yˆ = b0 + b1x1 + b2 x 2 +... + bp x p b0, b1, b2,...,bp sont les estimations de β 0 , β1, β2 ,..., β p et ŷ correspond à la valeur estimée de la variable dépendante. La figure 13.1 illustre le processus d’estimation dans le cadre d’une régression multiple. Modèle de régression multiple y = b0 + b1x1 + b2x2 +... + bpxp + e Données de l’échantillon x1 Équation de la régression multiple E (y ) = b0 + b1x1 + b2x2 +... + bpxp x2 xp y b0, b1, b2,... , bp sont des paramètres inconnus Estimer Les valeurs de l’équation de la régression b0, b1, b2,... , bp y^ = b0 + b1x1 + b2x2 +... + bpxp sont les estimations de b0, b1, b2,... , bp b0, b1, b2,... , bp sont les statistiques d’échantillon Figure 13.1 Processus d’estimation dans le cadre d’une régression multiple Dans le cadre d’une régression linéaire simple, b0 et b1 étaient les statistiques d’échantillon utilisées pour estimer les paramètres β0 et β1. L’analyse de la régression multiple est le pendant de cette inférence statistique, b0, b1, b2,...,bp étant les statistiques d’échantillon utilisées pour estimer les paramètres β 0 , β1, β2 ,..., β p Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 759 La méthode des moindres carrés 13.2 LA MÉTHODE DES MOINDRES CARRÉS Dans le chapitre 12, nous avons utilisé la méthode des moindres carrés pour estimer l’équation de la régression qui constitue la meilleure approximation d’une relation linéaire entre les variables dépendante et indépendante. Cette même approche est utilisée pour estimer l’équation de la régression multiple. Le critère des moindres carrés est reformulé ici. ► Critère des moindres carrés où min ∑ ( y i − yˆ i ) 2 (13.4) yi correspond à la valeur observée de la ie observation de la variable dépendante ŷi correspond à la valeur estimée de la ie observation de la variable dépendante Les valeurs estimées de la variable dépendante sont calculées en utilisant l’équation estimée de la régression multiple, yˆ = b0 + b1 x1 + b2 x2 + … + bp x p Comme l’indique l’expression (13.4), la méthode des moindres carrés se sert des données de l’échantillon pour obtenir les valeurs de b0 , b1 , b2 , …, bp qui minimisent la somme des carrés des résidus (les écarts entre les valeurs observées (yi) et les valeurs estimées ( ŷi) de la variable dépendante). Dans le chapitre 12, nous avons présenté les formules de calcul des estimateurs des moindres carrés b0 et b1 dans le cadre de l’équation estimée de la régression linéaire simple yˆ = b0 + b1 x. Pour des ensembles de données relativement petits, nous étions capables d’utiliser ces formules pour calculer, à la main, b0 et b1. Par contre, dans le cadre d’une régression multiple, la présentation des formules de calcul des coefficients de régression b0 , b1 , b2 , …, bp nécessite l’utilisation de l’algèbre matriciel et s’écarte de l’objet de cet ouvrage. Par conséquent, nous nous focaliserons sur l’utilisation des logiciels pour obtenir l’équation estimée de la régression multiple ainsi que d’autres informations. L’accent sera mis sur l’interprétation des résultats de la programmation plutôt que sur les calculs proprement dits de la régression. 13.2.1 Un exemple : la société de transport Butler Pour illustrer l’analyse de la régression multiple, nous considérons un problème rencontré par la société de transport Butler, implantée en Californie du Sud. La société Butler effectue des livraisons locales. Pour améliorer les plannings de travail, les responsables souhaitent estimer la durée quotidienne des trajets effectués par les chauffeurs. Les responsables supposaient initialement que la durée totale des trajets quotidiens était fortement liée au nombre de kilomètres parcourus pour effectuer les livraisons. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 760 RÉGRESSION MULTIPLE Un échantillon aléatoire simple de dix livraisons a fourni les données présentées dans le tableau 13.1 (cf. fichier en ligne Butler) et le nuage de point représenté à la figure 13.2. Au regard de ce nuage de point, les responsables ont supposé que le modèle de régression linéaire simple y = β 0 + β1 x1 + ε pouvait être utilisé pour décrire la relation entre la durée totale des trajets (y) et le nombre de kilomètres parcourus ( x1). Pour estimer les paramètres β0 et β1 , ils ont utilisé la méthode des moindres carrés afin d’obtenir l’équation estimée de la régression yˆ = b0 + b1 x1 (13.5) La figure 13.3 correspond au résultat de la programmation sous Minitab d’une régression linéaire simple, obtenu en utilisant les données du tableau 13.1. L’équation estimée de la régression est yˆ = 1,27 + 0,0678 x1 Au seuil de signification α = 0,05, la valeur F égale à 15,81 et la valeur p associée à cette statistique de test, égale à 0,004, indiquent que la relation est significative ; on peut donc rejeter H 0 : β1 = 0, la valeur p étant inférieure à α égal à 0,05. Notez qu’on obtient la même conclusion en utilisant la valeur t, égale à 3,98 et la valeur p qui lui est associée, égale à 0,004. Ainsi, nous pouvons conclure que la relation entre la durée totale des trajets et le nombre de kilomètres parcourus est significative ; des durées de trajets plus longues sont associées à un plus grand nombre de kilomètres parcourus. Puisque le coefficient de détermination (exprimé en pourcentage) est égal à 66,4 %, 66,4 % de la variabilité de la durée des trajets peut être expliquée linéairement par le nombre de kilomètres parcourus. Ce résultat est acceptable, mais les responsables souhaitent ajouter une seconde variable indépendante pour expliquer la variabilité restante de la variable dépendante. Tableau 13.1 Données préliminaires de la société Butler Butler Permis de conduire x1 = Kilomètres parcourus y = Temps de trajet (heures) 1 100 9,3 2 50 4,8 3 100 8,9 4 100 6,5 5 50 4,2 6 80 6,2 7 75 7,4 8 65 6,0 9 90 7,6 10 90 6,1 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 761 La méthode des moindres carrés y 10 Temps de trajet (en heures) 9 8 7 6 5 4 50 60 70 80 90 100 x1 Nombre de kilomètres parcourus Figure 13.2 Nuage de points des données préliminaires de la société Butler En essayant d’identifier une autre variable indépendante, les responsables ont pensé que le nombre de livraisons pouvait également expliquer la durée totale du trajet. Les données de la société Butler, y compris celles sur le nombre de livraisons effectuées, sont présentées dans le tableau 13.2. Le résultat de la programmation sous Minitab, en considérant le nombre de kilomètres parcourus ( x1) et le nombre de livraisons effectuées ( x2) en tant que variables indépendantes, est reproduit à la figure 13.4. L’équation estimée de la régression est yˆ = – 0,869 + 0,0611x1 + 0,923x2 (13.6) Dans la section suivante, nous discuterons de l’utilisation du coefficient de détermination multiple pour mesurer l’adéquation de cette équation estimée de la régression aux données. Tout d’abord, examinons plus attentivement les valeurs de b1 = 0,0611 et b2 = 0,923 dans l’équation (13.6). Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 762 RÉGRESSION MULTIPLE The regression equation is Time = 1.27 + 0.0678 Miles Predictor Constant Miles S = 1.002 Coef 1.274 0.06783 SE Coef 1.401 0.01706 R – sq = 66.4 % T 0.91 3.98 p 0.390 0.004 R – sq (adj) = 62.2 % Analysis of Variance SOURCE Regression Residual Error Total DF 1 8 9 SS 15.871 8.029 23.900 MS 15.871 1.004 F 15.81 p 0.004 Figure 13.3 Output Minitab de l’exemple de la société Butler avec une variable indépendante Le nom des variables apparaissant dans l’output Minitab (Miles pour kilomètres et Time pour durée des trajets) a été entré dans la feuille de calcul. Tableau 13.2 Données pour l’exemple Butler avec le nombre de kilomètres parcourus (x1) et le nombre de livraisons effectuées (x2) considérés comme variables indépendantes x1 = Kilomètres parcourus x2 = Livraisons effectuées y = Temps de trajet (heures) 1 100 4 9,3 2 50 3 4,8 3 100 4 8,9 4 100 2 6,5 5 50 2 4,2 6 80 2 6,2 7 75 3 7,4 8 65 4 6,0 9 90 3 7,6 10 90 2 6,1 Permis de conduire Butler Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 763 La méthode des moindres carrés The regression equation is Time = – 0.869 + 0.0611 Miles + 0.923 Deliveries Predictor Constant Miles Deliveries Coef – 0.8687 0.061135 0.9234 S = 0.5731 R – sq = 90.4 % SE Coef 0.9515 0.009888 0.2211 T – 0.91 6.18 4.18 p 0.392 0.000 0.004 R – sq (adj) = 87.6 % Analysis of Variance SOURCE Regression Residual Error Total DF 2 7 9 SS 21.601 2.299 23.900 MS 10.800 0.328 F 32.88 p 0.000 Figure 13.4 Output Minitab de l’exemple de la société Butler avec deux variables indépendantes Le nom des variables apparaissant dans l’output Minitab (Miles pour le nombre de kilomètres parcourus, Deliveries pour le nombre de livraisons effectuées et Time pour la durée des trajets) a été entré dans la feuille de calcul. Les étapes de programmation sous Minitab nécessaires pour générer l’output présenté à la figure 13.4 sont fournies dans l’annexe 13.1. 13.2.2 Remarque sur l’interprétation des coefficients Une observation peut être faite sur la relation entre l’équation estimée de la régression avec une seule variable indépendante, le nombre de kilomètres parcourus, et l’équation qui comprend deux variables indépendantes, le nombre de kilomètres parcourus et le nombre de livraisons effectuées. La valeur de b1 n’est pas identique dans les deux cas. Dans une régression linéaire simple, nous interprétons b1 comme une estimation de l’effet sur y d’une variation d’une unité de la variable indépendante. Dans une analyse de régression multiple, cette interprétation est légèrement modifiée. Dans une analyse de régression multiple, chaque coefficient est interprété de la façon suivante : bi représente une estimation d’un changement de y suite à un changement d’une unité de xi lorsque toutes les autres variables indépendantes sont constantes. Dans l’exemple de la société de transport Butler impliquant deux variables indépendantes, b1 est égal à 0,0611. Ainsi, 0,0611 heure est une estimation de l’augmentation attendue de la durée des trajets suite à une augmentation de la distance parcourue d’un kilomètre, lorsque le nombre de livraisons reste constant. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 770 RÉGRESSION MULTIPLE d) A.J. Burnett, un lanceur des New York Yankees, a à son actif un nombre moyen de strikeouts par manche de 0,91 et un nombre moyen de home runs par manche de 0,16. Utiliser l’équation estimée de la régression obtenue à la question (c) pour prévoir le nombre moyen de coups sûrs par manche de A.J. Burnett (remarque : la vraie valeur est de 0,6). e) Il a été suggéré d’utiliser également le nombre moyen de buts comme autre variable indépendante à la question (c). Que pensez-vous de cette suggestion ? 13.3 LE COEFFICIENT DE DÉTERMINATION MULTIPLE Dans le cadre d’une régression linéaire simple, nous avons montré que la somme totale des carrés pouvait être divisée en deux composantes : la somme des carrés de la régression et la somme des carrés des résidus. La même procédure s’applique à la somme des carrés dans le cadre d’une régression multiple. ► Relation entre SCT, SCreg et SCres où SCT = SCreg + SCres (13.7) ∑ ( y − y ) correspond à la somme des carrés totale SCreg = ∑ ( yˆ − y ) correspond à la somme des carrés de la régression SCres = ∑ ( y − yˆ ) correspond à la somme des carrés des résidus SCT = 2 i 2 i i 2 i À cause de la complexité des calculs de ces trois sommes des carrés, nous nous reposons sur les logiciels informatiques pour déterminer ces valeurs. L’analyse de la variance faite par Minitab, présentée à la figure 13.4, fournit les trois valeurs dans le cadre du problème de la société de transport Butler à deux variables indépendantes : SCT = 23,900, SCreg = 21,601 et SCres = 2,299. Avec une seule variable indépendante (le nombre de kilomètres parcourus), l’output de Minitab présenté à la figure 13.3 indiquait les valeurs suivantes : SCT = 23,900, SCreg = 15,871 et SCres = 8,029. La valeur de SCT est identique dans les deux cas, puisqu’elle ne dépend pas de yˆ, mais l’introduction d’une seconde variable indépendante (le nombre de livraisons) accroît SCreg et réduit SCres. En conséquence, l’équation estimée de la régression multiple est plus adaptée aux données observées. Dans le chapitre 12, nous avons mesuré l’adéquation de l’équation estimée de la régression aux données grâce au coefficient de détermination r 2 = SCreg / SCT. Le même concept s’applique à la régression multiple. Le terme coefficient de détermination multiple indique que nous mesurons l’adéquation d’une équation estimée de régression multiple. Le coefficient de détermination multiple, noté R 2 , est calculé de la façon suivante : ► Coefficient de détermination multiple R2 = SCreg/SCT Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. (13.8) 771 Le coefficient de détermination multiple Le coefficient de détermination multiple peut être interprété comme la proportion de la variabilité de la variable dépendante expliquée par l’équation estimée de la régression multiple. En le multipliant par 100, on peut l’interpréter comme le pourcentage de la variation de y expliquée par l’équation estimée de la régression. Dans l’exemple de la société de transport Butler à deux variables indépendantes, R2 = 21,601 = 0,904 23,900 Ainsi, 90,4 % de la variabilité du temps de trajet y est expliquée par l’équation estimée de la régression multiple, ayant pour variables indépendantes le nombre de kilomètres parcourus et le nombre de livraisons effectuées. L’output Minitab de la figure 13.4 fournit également le coefficient de détermination multiple ; il est noté R – sq = 90,4 %. La figure 13.3 indique que la valeur du coefficient de détermination de l’équation estimée de la régression avec une seule variable indépendante, le nombre de kilomètres parcourus ( x1), est égale à 66,4 %. Ainsi, le pourcentage de la variabilité de la durée des trajets expliquée par l’équation estimée de la régression est passé de 66,4 % à 90,4 % en ajoutant le nombre de livraisons effectuées comme seconde variable indépendante. En général, R 2 augmente lorsque des variables indépendantes sont ajoutées au modèle. Ajouter des variables indépendantes réduit l’erreur de prévision, et par conséquent, la somme des carrés des résidus. Puisque SCreg = SCT – SCres, lorsque SCres diminue, SCreg augmente, entraînant une augmentation de R2 = SCreg/SCT. Beaucoup d’analystes préfèrent ajuster R 2 au nombre de variables indépendantes pour éviter de surestimer l’impact de l’ajout d’une variable indépendante sur la part de la variabilité expliquée par l’équation estimée de la régression. Avec n le nombre d’observations et p le nombre de variables indépendantes, le coefficient de détermination multiple ajusté est calculé de la façon suivante : ► Coefficient de détermination multiple ajusté n 1 Ra2 = 1 (1 R 2 ) n p 1 (13.9) Si une variable est ajoutée dans le modèle, R 2 augmente même si cette variable n’est pas statistiquement significative. Le coefficient de détermination multiple ajusté tient compte du nombre de variables indépendantes présentes dans le modèle. Dans l’exemple de la société de transport Butler, avec n = 10 et p = 2, nous avons Ra2 = 1 – (1 – 0,904) 10 – 1 = 0,88 10 – 2 – 1 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 772 RÉGRESSION MULTIPLE Ainsi, en tenant compte de la présence de deux variables indépendantes, le coefficient de détermination multiple ajusté est égal à 0,88. Cette valeur correspond à la valeur R – sq( adj ) = 87,6 % dans l’output Minitab présenté à la figure 13.4. L’écart entre ces deux valeurs tient au fait que nous avons arrondi la valeur de R 2 dans notre propre calcul. REMARQUES Si la valeur de R 2 est faible et que le modèle contient un nombre de variables indépendantes important, le coefficient de détermination ajusté peut prendre une valeur négative. Dans de tels cas, Minitab égalise le coefficient de détermination ajusté à zéro. EXERCICES Méthode 11. Dans l’exercice 1, l’équation estimée de la régression suivante, fondée sur dix observations, était présentée. yˆ = 29,1270 + 0,5906 x1 + 0,4980 x2 ! !  Les valeurs de SCT et SCreg sont respectivement égales à 6 724,125 et 6 216,375. a) Trouver SCres. b) Calculer R 2. c) Calculer Ra2. d) Commenter l’adéquation de la régression aux données. 12. Dans l’exercice 2, dix observations relatives à une variable dépendante y et deux variables indépendantes x1 et x2 étaient données. Pour celles-ci, SCT = 15 182,9 et SCreg = 14 052,2. a) Calculer R 2. b) Calculer Ra2. c) L’équation estimée de la régression explique-t-elle une part importante de la variabilité des données ? Expliquer. 13. Dans l’exercice 3, l’équation estimée de la régression suivante, fondée sur 30 observations, était présentée. yˆ = 17,6 + 3,8 x – 2,3x2 + 7,6 x3 + 2,7 x4 Les valeurs de SCT et SCreg sont respectivement égales à 1 805 et 1 760. a) Calculer R 2. b) Calculer Ra2. c) Commenter l’adéquation de la régression. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite.

Modèle de régression multiple PDF

Document Details

Tags

Related

Summary

Full Transcript