Régression Linéaire Simple PDF
Document Details
Uploaded by BuoyantComputerArt
HEC Lausanne
Tags
Summary
Ce document décrit les méthodes d'estimation et de prévision dans le cadre d'une régression linéaire simple, en utilisant des exemples numériques pour illustrer les concepts. L'accent est mis sur les estimations ponctuelles, les intervalles de confiance et les intervalles de prévision.
Full Transcript
712 RÉGRESSION LINÉAIRE SIMPLE 12.6 UTILISER L’ÉQUATION ESTIMÉE DE LA RÉGRESSION POUR ESTIMER ET PRÉVOIR Lorsqu’on utilise un modèle de régression linéaire simple, on fait une hypothèse sur la relation entre x et y. En utilisant la méthode des moindres carrés, on obtient l’équation estimée de la rég...
712 RÉGRESSION LINÉAIRE SIMPLE 12.6 UTILISER L’ÉQUATION ESTIMÉE DE LA RÉGRESSION POUR ESTIMER ET PRÉVOIR Lorsqu’on utilise un modèle de régression linéaire simple, on fait une hypothèse sur la relation entre x et y. En utilisant la méthode des moindres carrés, on obtient l’équation estimée de la régression linéaire simple. Si les résultats prouvent l’existence d’une relation statistiquement significative entre x et y, et si le coefficient de détermination indique que l’équation estimée de la régression semble bien adaptée aux données, l’équation estimée de la régression peut servir à faire des estimations et des prévisions. Dans l’exemple des restaurants Armand, l’équation estimée de la régression s’écrit yˆ = 60 + 5x. À la fin de la section 12.1, nous avons affirmé que ŷ pouvait être utilisé comme un estimateur ponctuel de E ( y ), la moyenne ou valeur espérée de y pour une valeur donnée de x. Par exemple, supposez que les responsables des restaurants Armand veuillent effectuer une estimation ponctuelle de la moyenne des ventes trimestrielles pour tous les restaurants situés près de campus universitaires regroupant 10 000 étudiants. En utilisant l’équation estimée de la régression yˆ = 60 + 5x , nous voyons que pour x = 10 (soit 10 000 étudiants), yˆ = 60 + 5(10) = 110. Ainsi, une estimation ponctuelle de la moyenne des ventes trimestrielles pour tous les restaurants situés près de campus comptant 10 000 étudiants est 110 000 dollars. Dans ce cas, nous avons utilisé ŷ comme estimateur ponctuel de la valeur moyenne de y lorsque x est égal à 10. Nous pouvons également utiliser l’équation estimée de la régression pour prédire une valeur individuelle de y pour une valeur donnée de x. Par exemple, pour prévoir les ventes trimestrielles d’un nouveau restaurant situé près du collège Talbot, une école comptant 10 000 étudiants, nous calculons yˆ = 60 + 5(10) = 110. Par conséquent, nous pouvons utiliser ŷ comme prévision de y pour une nouvelle observation lorsque x = 10. Lorsque nous utilisons l’équation estimée de la régression pour estimer la valeur moyenne de y ou prédire une valeur individuelle de y, il est clair que l’estimation ou la prévision dépendent de la valeur de x considérée. Pour cette raison, lors de nos discussions sur les questions relatives à l’estimation et à la prévision, nous adopterons la notation suivante pour clarifier les choses. x * = la valeur considérée de la variable indépendante x y * = la variable aléatoire correspondant aux valeurs possibles de la variable dépendante y lorsque x = x * E ( y * ) = la moyenne ou l’espérance mathématique de la variable dépendante y lorsque x = x * yˆ * = b0 + b1 x * = l’estimateur ponctuel de E ( y * ) et le prédicteur d’une valeur individuelle de y * lorsque x = x * Pour illustrer l’usage de cette notation, supposez que nous souhaitions estimer la valeur moyenne des ventes trimestrielles de tous les restaurants Armand situés près d’un campus de 10 000 étudiants. Dans ce cas x * = 10 et E ( y * ) correspond à la valeur moyenne Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 713 Utiliser l’équation estimée de la régression pour estimer et prévoir inconnue des ventes trimestrielles pour tous les restaurants où x * = 10. Ainsi, l’estimation ponctuelle de E ( y * ) est fournie par yˆ * = 60 + 5(10) = 110, soit 110 000 dollars. Mais, en utilisant cette notation, yˆ * = 110 correspond aussi à la prévision des ventes trimestrielles pour le nouveau restaurant situé près du collège Talbot, une école de 10 000 étudiants. 12.6.1 Estimation par intervalle Les estimations ponctuelles et les prévisions ne fournissent aucune information sur la précision de l’estimation et/ou de la prévision. Pour cela, il faut développer des intervalles de confiance et des intervalles de prévision. Un intervalle de confiance est une estimation par intervalle de la valeur moyenne de y pour une valeur donnée de x. Un intervalle de prévision est utilisé lorsqu’on souhaite prédire une valeur individuelle de y pour une nouvelle observation correspondant à une valeur donnée de x. Bien que la prévision de y pour une valeur donnée de x soit identique à l’estimation ponctuelle de la valeur moyenne de y pour une valeur donnée de x, les estimations par intervalle que nous obtenons dans les deux cas, sont différentes. Comme nous le verrons, la marge d’erreur est plus importante dans le cas d’intervalles de prévision. Nous commençons par montrer comment construire une estimation par intervalle de la valeur moyenne de y. Les intervalles de confiance et les intervalles de prévision indiquent la précision des résultats de la régression. Plus les intervalles sont petits, plus le degré de précision est élevé. 12.6.2 Intervalle de confiance de la valeur moyenne de y En général, yˆ * n’est pas exactement égal à E ( y * ). Si l’on souhaite faire de l’inférence sur l’écart entre yˆ * et la vraie moyenne E ( y * ), il faut estimer la variance de yˆ *. La formule pour estimer la variance de yˆ * sachant x *, notée s 2yˆ * correspond à ⎡ ⎤ 1 ( x * − x )2 ⎥ s y2ˆ * = s 2 ⎢ + ⎢n ⎥ ∑ ( xi − x )2 ⎥⎦ ⎣⎢ (12.22) L’estimation de l’écart type de yˆ * correspond à la racine carrée de l’expression (12.22). s yˆ * = s 1 ( x * − x )2 + n ∑ ( xi − x ) 2 (12.23) D’après les résultats obtenus dans le cadre de l’exemple des restaurants Armand dans la section 12.5, s = 13,829. Avec x p = 10, x = 14 et ∑ ( xi − x )2 = 568, on peut utiliser l’expression (12.23) pour obtenir s yˆ = 13, 829 p 1 (10 − 14 ) + 10 568 2 = 13,829 0,1282 = 4,95 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 714 RÉGRESSION LINÉAIRE SIMPLE L’expression générale pour un intervalle de confiance s’écrit de la façon suivante. ► Intervalle de confiance pour E (yp) yˆp ± t α 2syˆ (12.24) p où le coefficient de confiance est égal à 1− α et t a 2 est basé sur la distribution de Student à n − 2 degrés de liberté La marge d’erreur associée à cette estimation par intervalle est t a 2syˆ. p Pour pouvoir utiliser l’expression (12.24) pour construire un intervalle de confiance à 95 % de la moyenne des ventes trimestrielles pour tous les restaurants Armand situés près de campus regroupant 10 000 étudiants, il nous faut connaître la valeur de t pour α 2 = 0,025 et n − 2 = 10 − 2 = 8 degrés de liberté. D’après la table 2 de l’annexe B, t0,025 = 2,306. Ainsi, avec yˆ * = 110 et une marge d’erreur égale à tα /2 s yˆ * = 2,306 (4,95) = 11, 415 l’estimation par intervalle de confiance à 95 % est 110 ± 11, 415 En dollars, l’intervalle de confiance à 95 % de la moyenne des ventes trimestrielles de tous les restaurants situés près des campus de 10 000 étudiants est 110 000 ± 11 415 dollars. Par conséquent, l’intervalle de confiance à 95 % de la moyenne des ventes trimestrielles lorsque la population étudiante compte 10 000 individus va de 98 585 dollars à 121 415 dollars. Notez que l’écart type estimé de yˆ * donné par l’expression (12.23) est le plus faible lorsque x * − x = 0. Dans ce cas, l’écart type estimé de yˆ * devient s yˆ * = s 1 + n ( x − x )2 ∑ (x i − x) =s 2 1 n Ce résultat implique que la meilleure estimation ou l’estimation la plus précise de la moyenne de y est obtenue lorsque x * = x. En fait, plus x * est loin de x , plus x * − x s’accroît. Par conséquent, les intervalles de confiance pour la moyenne de y deviennent plus larges lorsque x * s’écarte de x. La figure 12.8 illustre graphiquement ce résultat. 12.6.3 Intervalle de prévision d’une valeur individuelle de y Supposez que plutôt qu’estimer la moyenne des ventes trimestrielles des restaurants Armand situés près des campus de 10 000 étudiants, nous voulions estimer les ventes trimestrielles d’un nouveau restaurant qu’Armand envisage de construire près du collège Talbot qui compte 10 000 étudiants. Comme souligné précédemment, la prévision de y *, la valeur de y associée à x *, correspond à yˆ * = b0 + b1 x *. Pour un nouveau restaurant situé près du collège Talbot, x * = 10 et les ventes trimestrielles correspondantes sont estimées à yˆ * = 60 + 5(10) = 110 soit 110 000 dollars. Notez que cette valeur est identique à l’estimation ponctuelle de la moyenne des ventes trimestrielles pour tous les restaurants situés près de campus de 10 000 étudiants. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 715 Utiliser l’équation estimée de la régression pour estimer et prévoir y Limite supérieure Ventes trimestrielles (en milliers de dollars) 220 200 y= ^ 180 160 5x Limite inférieure 140 Les limites de l’intervalle de confiance dépendent de x* 120 100 La largeur de l’intervalle de confiance est minimale lorsque x* = x 80 60 40 x = 14 20 0 60 + 0 2 4 6 8 10 12 14 16 18 20 22 24 26 x Population étudiante (en milliers) Figure 12.8 Intervalles de confiance de la moyenne des ventes trimestrielles y pour des valeurs données de la population étudiante x Pour développer un intervalle de prévision, nous devons tout d’abord estimer la variance associée à l’utilisation de yˆ * comme estimateur de y lorsque x = x *. Cette variance est composée de la somme des deux éléments suivants : 1. La variance des valeurs de y *, par rapport à la moyenne E ( y * ), estimée par s 2 ; 2. La variance associée à l’utilisation de ŷ p pour estimer E ( y * ), estimée par s 2yˆ *. La formule pour estimer la variance associée à la prévision d’une valeur de y lorsque x = x *, notée s 2prev, est s 2prev = s 2 + s y2ˆ * ⎡ ⎤ 1 ( x * − x )2 ⎥ = s2 + s2 ⎢ + ⎢n ⎥ ∑ ( xi − x )2 ⎥⎦ ⎢⎣ ⎡ ⎤ 1 ( x * − x )2 ⎥ = s 2 ⎢1 + + ⎢ ⎥ n ∑ ( xi − x )2 ⎥⎦ ⎢⎣ Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. (12.25) 716 RÉGRESSION LINÉAIRE SIMPLE Par conséquent, une estimation de l’écart type associé à la prévision d’une valeur de y * est donnée par s prev ⎤ ⎡ 1 ( x * − x )2 ⎥ ⎢ = s 1+ + ⎥ ⎢ n ∑ ( xi − x )2 ⎥⎦ ⎢⎣ (12.26) Dans le cadre de l’exemple des restaurants Armand, l’écart type estimé correspondant à la prévision des ventes trimestrielles d’un nouveau restaurant situé près du collège Talbot, un campus de 10 000 étudiants, est calculé de la façon suivante. ⎡ 1 (10 − 14)2 ⎤ s prev = 13,829 ⎢1 + + 10 568 ⎥⎦ ⎣ = 13,829 1, 282 = 14,69 L’expression générale d’un intervalle de prévision est la suivante. ► Intervalle de prévision de yp ŷ p ± t α 2sprev (12.27) où le coefficient de confiance est égal à 1− α et t a 2 est basé sur la distribution de Student à n − 2 degrés de liberté La marge d’erreur associée à cette estimation par intervalle est t α 2sprev. L’intervalle de prévision à 95 % pour les ventes trimestrielles d’un nouveau restaurant situé près du collège Talbot peut être trouvé en utilisant t0,025 = 2,306 et s prev = 14,69. Ainsi, avec yˆ * = 110 et une marge d’erreur égale à t0,025s prev = 2,306 (14,69) = 33,875, l’intervalle de prévision à 95 % est le suivant 110 ± 33,875 En dollars, l’intervalle de prévision est le suivant : 110 000 ± 33 875 dollars, soit de 76 125 dollars à 143 875 dollars. Notez que l’intervalle de prévision pour le nouveau restaurant situé près du collège Talbot, un campus de 10 000 étudiants, est plus large que l’intervalle de confiance pour la moyenne des ventes de tous les restaurants situés près de campus de 10 000 étudiants. La différence reflète le fait que nous sommes capables d’estimer la valeur moyenne de y de façon plus précise qu’une valeur individuelle de y. À la fois les estimations par intervalle de confiance et par intervalle de prévision sont plus précises lorsque la valeur de la variable indépendante x * est proche de x. Les formes générales des intervalles de confiance et des intervalles de prévision, plus larges, sont représentées à la figure 12.9. En général, les courbes représentant les limites des intervalles de confiance et de prévision ont la même forme. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 717 Utiliser l’équation estimée de la régression pour estimer et prévoir y Ventes trimestrielles (en milliers de dollars) 240 220 200 ^ 180 y Les intervalles de prévision sont plus larges 160 + = 60 5x Limites de l’intervalle de confiance 140 120 Limites de l’intervalle de prévision 100 80 La largeur des deux intervalles est minimale lorsque x* = x x = 14 60 40 20 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 x Population étudiante (en milliers) Figure 12.9 Intervalles de confiance et de prévision des ventes trimestrielles y pour des valeurs données de la population étudiante x REMARQUES Un intervalle de prévision est utilisé pour prévoir la valeur de la variable dépendante y pour une nouvelle observation. À titre d’illustration, nous avons montré comment construire un intervalle de prévision des ventes trimestrielles d’un nouveau restaurant qu’Armand envisage de construire près du collège Talbot, un campus de 10 000 étudiants. Le fait que la valeur de x = 10 ne soit pas une des valeurs de la population d’étudiants appartenant à l’échantillon de données du tableau 12.1, n’implique pas que les intervalles de prévision ne peuvent pas être construits pour des valeurs de x appartenant aux données d’échantillon. Mais, pour les 10 restaurants qui constituent l’échantillon du tableau 12.1, construire un intervalle de prévision pour les ventes trimestrielles pour l’un de ces restaurants ne fait pas sens puisque nous connaissons déjà la valeur des ventes trimestrielles de chacun de ces restaurants. En d’autres termes, un intervalle de prévision n’a de sens que pour quelque chose de nouveau, dans ce cas, une nouvelle observation correspondant à une valeur particulière de x qui peut ou peut ne pas être égale à une des valeurs de x contenues dans l’échantillon. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite.