Analyse de la Régression Linéaire Simple PDF

Summary

Ce document étudie l'analyse de régression linéaire simple, en utilisant des exemples concrets liés à la gestion des relations client. Il explique comment cette méthode statistique peut aider à prédire le comportement des consommateurs et à élaborer des stratégies marketing plus efficaces.

Full Transcript

670 RÉGRESSION LINÉAIRE SIMPLE STATISTIQUES APPLIQUÉES Alliance Data Systems* Dallas, État du Texas Alliance Data Systems (ADS) fournit des moyens de traitement des transactions, des services de crédit et des services marketing à ses clients dans le domaine de la gestion des relations client, aujour...

670 RÉGRESSION LINÉAIRE SIMPLE STATISTIQUES APPLIQUÉES Alliance Data Systems* Dallas, État du Texas Alliance Data Systems (ADS) fournit des moyens de traitement des transactions, des services de crédit et des services marketing à ses clients dans le domaine de la gestion des relations client, aujourd’hui en croissance. Les clients de ADS sont concentrés dans quatre secteurs : le commerce de détail, les stations-service, les services publics et les transports. En 1983, Alliance a commencé à proposer des services de traitement des crédits aux entreprises appartenant aux secteurs du commerce de détail (y compris les stations-service) et de la restauration ; aujourd’hui cette société emploie plus de 6 500 personnes et offre ses services à des clients à travers le monde. Gérant plus de 140 000 points de vente aux États-Unis, ADS traite plus de 2,5 milliards de transactions par an. La société se place au deuxième rang des sociétés américaines privées de services de crédit, en gérant 49 programmes touchant près de 72 millions de détenteurs d’une carte de crédit. En 2001, ADS a fait une première offre publique d’achat et est maintenant cotée à la bourse de New York. L’un des services marketing d’ADS consiste à élaborer des campagnes promotionnelles par courrier. Grâce à sa base de données contenant des informations sur les habitudes d’achat de plus de 100 millions de consommateurs, ADS peut cibler les consommateurs qui seront les plus sensibles à une campagne promotionnelle. Le bureau de développement analytique utilise l’analyse de la régression pour construire des modèles permettant de mesurer et de prévoir la sensibilité des consommateurs à des campagnes marketing ciblées. Certains modèles de régression prédisent la probabilité d’achat des individus recevant une réduction, d’autres prédisent le montant dépensé par les consommateurs qui effectuent un achat. Lors d’une campagne promotionnelle particulière, une chaîne de magasins souhaitait attirer de nouveaux consommateurs. Pour prévoir l’effet de la campagne, les analystes de ADS ont sélectionné un échantillon de consommateurs dans leur base de données, ont envoyé à ces individus un bon d’achat et ont ensuite collecté des données sur les transactions de ces clients : le montant d’achat ainsi que plusieurs variables spécifiques à chaque consommateur susceptibles d’être utiles pour prévoir les ventes. La variable spécifique à chaque consommateur la plus pertinente pour prévoir le montant des achats, était le montant total des dépenses effectuées dans des magasins similaires au cours des 39 derniers mois. Les analystes de ADS ont effectué une régression entre le montant des achats et le montant dépensé dans des magasins similaires : yˆ = 26,7 + 0,00205x où ŷ correspond au montant des achats et x au montant dépensé dans des magasins similaires. En utilisant cette équation, nous pouvons prédire qu’une personne qui a dépensé 10 000 dollars au cours des 39 derniers mois dans des magasins similaires, dépensera 47,20 dollars en réponse à la campagne promotionnelle ciblée. Dans ce chapitre, vous apprendrez à effectuer ce type de régression. * Les auteurs remercient Philip Clemance, directeur du développement analytique chez Alliance Data Systems, de leur avoir fourni ce Statistiques appliquées. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Régression linéaire simple 671 Le modèle final développé par les analystes de ADS incluait également plusieurs autres variables, augmentant ainsi le pouvoir prédictif de l’équation précédente, telles que la possession ou non d’une carte de crédit bancaire, le revenu estimé et le montant moyen dépensé par visite dans un magasin particulier. Dans le chapitre suivant, nous verrons comment de telles variables additionnelles peuvent être incorporées dans un modèle de régression multiple. Les décisions prises par un responsable sont souvent basées sur la relation qui existe entre deux ou plusieurs variables. Par exemple, après avoir considéré la relation entre les dépenses publicitaires et les ventes, un responsable marketing peut essayer de prévoir les ventes pour un montant donné de dépenses publicitaires. Autre exemple, un fournisseur d’électricité peut se servir de la relation entre la température journalière maximale et la demande en électricité pour prévoir la demande en électricité, en se basant sur les températures maximales prévues le mois suivant. Parfois, un responsable peut se fier à son intuition pour déterminer le type de relation qui lie deux variables. Cependant, s’il est possible d’obtenir des données, une procédure statistique, appelée analyse de la régression, permet de construire une équation indiquant de quelle manière les variables sont liées. Dans la terminologie utilisée dans le cadre d’une analyse de la régression, la variable que l’on cherche à prévoir est appelée variable dépendante. La variable ou les variables utilisées pour prévoir la valeur de la variable dépendante sont appelées variables indépendantes. Par exemple, en analysant les effets des dépenses publicitaires sur les ventes, le responsable marketing cherche à prévoir les ventes ; les ventes correspondent donc à la variable dépendante et les dépenses publicitaires correspondent à la variable indépendante, utilisée pour prévoir les ventes. Dans la notation statistique usuelle, la variable dépendante est notée y et la variable indépendante est notée x. Dans ce chapitre, nous considérons l’analyse de la régression la plus simple impliquant une variable indépendante et une variable dépendante, dont la relation est estimée par une ligne droite. Il s’agit de la régression linéaire simple. L’analyse de la régression impliquant au moins deux variables indépendantes, appelée analyse de la régression multiple, sera étudiée au chapitre 13. Les méthodes statistiques utilisées pour étudier la relation entre deux variables ont été employées pour la première fois par Sir Francis Galton (1822-1911). Galton s’intéressait à la relation entre la taille d’un père et celle de son fils. Le disciple de Galton, Karl Pearson (1857-1936), analysa la relation entre la taille d’un père et celle de son fils à partir d’un échantillon de 1 078 paires de sujets. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 672 RÉGRESSION LINÉAIRE SIMPLE 12.1 LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE Les pizzerias Armand sont une chaîne de restaurants italiens, implantée dans cinq États américains. Les restaurants les plus fréquentés se situent près des campus universitaires. Les responsables pensent que les ventes trimestrielles de ces restaurants (notées y) sont positivement liées à la taille de la population étudiante (notée x) ; en d’autres termes, les restaurants situés près des campus universitaires de grande taille ont tendance à générer un plus gros chiffre d’affaires que ceux situés près des campus de plus petite taille. En utilisant l’analyse de la régression, nous pouvons construire une équation indiquant de quelle manière la variable dépendante y est liée à la variable indépendante x. 12.1.1 Modèle de régression et équation de la régression Dans l’exemple des pizzerias Armand, la population étudiée correspond à l’ensemble des restaurants Armand. À chaque restaurant de la population sont associées une valeur x (la population étudiante) et une valeur y (les ventes trimestrielles). L’équation qui décrit la relation qui lie y à x et à un terme d’erreur, correspond à un modèle de régression. Le modèle de régression utilisé dans une régression linéaire simple s’écrit de la façon suivante : ► Modèle de régression linéaire simple y = β 0 + β1x + ε (12.1) β0 et β1 correspondent aux paramètres du modèle et ε (la lettre grecque epsilon) est une variable aléatoire appelée terme d’erreur. Le terme d’erreur prend en compte la variabilité de y qui n’est pas expliquée par la relation linéaire entre x et y. La population de tous les restaurants Armand peut être vue comme un ensemble de sous-populations, une pour chaque valeur particulière de x. Par exemple, l’une des sous-populations est constituée de tous les restaurants Armand situés près de campus universitaires regroupant 8 000 étudiants ; une autre sous-population est constituée de tous les restaurants Armand situés près de campus universitaires regroupant 9 000 étudiants ; etc. Chaque sous-population a une distribution particulière des valeurs y. Ainsi, une distribution des valeurs y est associée aux restaurants situés près de campus regroupant 8 000 étudiants ; une distribution des valeurs y est associée aux restaurants situés près de campus regroupant 9 000 étudiants ; etc. Chaque distribution des valeurs y a sa propre moyenne ou espérance mathématique. L’équation qui décrit comment la moyenne ou l’espérance mathématique de y, notée E ( y ), est liée à x, est appelée équation de la régression. L’équation de la régression dans le cadre d’une régression linéaire simple s’écrit : ► Équation de la régression linéaire simple E ( y ) = β 0 + β1x (12.2) L’équation de la régression linéaire simple est représentée graphiquement par une droite ; β0 correspond à l’ordonnée à l’origine de la droite de régression, β1 correspond à la pente et E ( y ) est la moyenne ou espérance mathématique de y pour une valeur donnée de x. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 673 Le modèle de régression linéaire simple La figure 12.1 regroupe quelques exemples de droites de régression possibles, dans le cadre d’une régression linéaire simple. Dans le cas A, la moyenne de y est positivement liée à x, de plus grandes valeurs de E ( y ) étant associées à de plus grandes valeurs de x. Dans le cas B, la moyenne de y est négativement liée à x, de plus petites valeurs de E ( y ) étant associées à de plus grandes valeurs de x. Dans le cas C, la moyenne de y n’est pas liée à x, la moyenne de y étant la même pour chaque valeur de x. 12.1.2 Équation estimée de la régression Si la valeur des paramètres de la population β 0 et β1 était connue, nous pourrions utiliser l’équation (12.2) pour calculer la moyenne de y pour une valeur donnée de x. En pratique, la valeur des paramètres n’est pas connue et doit être estimée en utilisant les données d’un échantillon. Les statistiques d’échantillon (notées b0 et b1) servent d’estimations des paramètres de la population β 0 et β1. En substituant les valeurs de b0 et b1 à la place de β 0 et β1 dans l’équation de la régression, nous obtenons l’équation estimée de la régression. L’équation estimée de la régression, dans le cadre d’une régression linéaire simple, s’écrit : ► Équation estimée de la régression linéaire simple (12.3) ŷ = b0 + b1x La figure 12.2 résume le processus d’estimation dans le cadre d’une régression linéaire simple. Le graphique de l’équation estimée de la régression linéaire simple est appelé droite de régression estimée ; b0 correspond à l’ordonnée à l’origine et b1 correspond à la pente. Dans la section suivante, nous montrerons comment appliquer la méthode des moindres carrés pour calculer les valeurs de b0 et b1 dans l’équation estimée de la régression. Cas A : Relation linéaire positive E (y ) E (y ) Droite de régression Ordonnée à l’origine b0 Cas B : Relation linéaire négative Ordonnée à l’origine b0 Cas C : Pas de relation E (y ) La pente b1 est négative La pente b1 est positive Ordonnée à l’origine b0 La pente b1 est nulle Droite de régression Droite de régression x x Figure 12.1 Droites de régression possibles dans une régression linéaire simple Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. x 674 RÉGRESSION Modèle de régression y = b0 + b1x + e Équation de la régression E (y ) = b0 + b1x Paramètres inconnus b0, b1 Données de l’échantillon x y y1 x1 x2 y2 xn sont les estimations de b0 et b1 yn Estimer Les valeurs de b0 et b1 LINÉAIRE SIMPLE l’équation de la régression y^ = b0 + b1x Statistiques d’échantillon b0, b1 Figure 12.2 Processus d’estimation dans le cadre d’une régression linéaire simple L’estimation de β 0 et β1 est une procédure statistique semblable à l’estimation de µ décrite dans le chapitre 7. β 0 et β1sont les paramètres inconnus qui nous intéressent et b0 et b1 sont les statistiques d’échantillon utilisées pour estimer les paramètres. En général, ŷ correspond à l’estimateur ponctuel de E ( y ), la valeur moyenne de y pour une valeur particulière de x. Ainsi, pour estimer la moyenne des ventes trimestrielles des restaurants situés près de campus universitaires regroupant 10 000 étudiants, il faut substituer 10 000 à x dans l’équation (12.3). Dans certains cas, cependant, les restaurants Armand seront davantage intéressés par les prévisions de ventes dans un restaurant particulier. Par exemple, supposez qu’Armand veuille prévoir les ventes trimestrielles du restaurant situé près de l’université Talbot, comptant 10 000 étudiants. La meilleure estimation de y pour une valeur donnée de x est également fournie par yˆ. Ainsi, pour prévoir les ventes trimestrielles du restaurant situé près de l’université Talbot, Armand substituera également la valeur 10 000 à x dans l’équation (12.3). La valeur de ŷ fournit à la fois une estimation ponctuelle de E(y) pour une valeur donnée de x et une prédiction d’une valeur individuelle y pour une valeur donnée de x. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 675 La méthode des moindres carrés REMARQUES 1. L’analyse de la régression ne peut pas être interprétée comme une procédure établissant une relation de cause à effet entre deux variables. Elle peut simplement indiquer comment ou dans quelle mesure les variables sont associées les unes avec les autres. Toute conclusion sur les causes et les effets doit être basée sur l’opinion des individus les plus à même de porter un tel jugement. 2. L’équation de la régression dans une régression linéaire simple est E ( y ) = β 0 + β1x. Des ouvrages plus avancés sur l’analyse de la régression écrivent souvent l’équation de la régression E ( y x ) = β0 + β1x pour souligner le fait que l’équation de la régression fournit la moyenne de y pour une valeur donnée de x. 12.2 LA MÉTHODE DES MOINDRES CARRÉS La méthode des moindres carrés est une procédure qui permet d’utiliser les données de l’échantillon pour estimer l’équation de la régression. Pour illustrer la méthode des moindres carrés, supposons que nous ayons collecté des données sur un échantillon de 10 restaurants Armand, situés près de campus universitaires. Pour le ie restaurant de l’échantillon, xi correspond à la taille de la population étudiante (en milliers) et yi correspond aux ventes trimestrielles (en milliers de dollars). Les valeurs de xi et yi associées aux 10 restaurants de l’échantillon sont présentées dans le tableau 12.1 (cf. fichier en ligne Armand). Le restaurant 1, caractérisé par x1 = 2 et y1 = 58, est situé près d’un campus regroupant 2 000 étudiants et ses ventes trimestrielles s’élèvent à 58 000 dollars. Le restaurant 2, caractérisé par x2 = 6 et y2 = 105, est situé près d’un campus regroupant 6 000 étudiants et ses ventes trimestrielles s’élèvent à 105 000 dollars. Le restaurant 10, situé sur un campus de 26 000 étudiants, détient le montant des ventes le plus élevé, avec 202 000 dollars de ventes trimestrielles. Tableau 12.1 Données sur la population étudiante et les ventes trimestrielles de dix restaurants Armand Restaurant i xi = Population étudiante (en milliers) yi = Ventes trimestrielles (en milliers de dollars) 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Armand 676 RÉGRESSION LINÉAIRE SIMPLE Dans une régression linéaire simple, chaque observation est composée de deux valeurs : l’une est associée à la variable dépendante, l’autre à la variable indépendante. La figure 12.3 correspond au nuage de points, obtenu avec les données du tableau 12.1. L’axe des abscisses représente la taille de la population étudiante et l’axe des ordonnées représente la valeur des ventes trimestrielles. Les nuages de points des analyses de la régression sont construits en plaçant les valeurs de la variable indépendante x sur l’axe des abscisses et les valeurs de la variable dépendante y sur l’axe des ordonnées. Les nuages de points nous permettent d’observer graphiquement les données et de tirer des conclusions préliminaires sur la relation éventuelle entre les variables. Quelles conclusions préliminaires pouvez-vous tirer de la figure 12.3 ? Les ventes trimestrielles semblent être supérieures sur les campus regroupant plus d’étudiants. De plus, pour ces données, la relation entre la taille de la population étudiante et les ventes trimestrielles semble pouvoir être estimée par une droite ; il semble donc y avoir une relation linéaire positive entre x et y. Nous choisissons par conséquent un modèle de régression linéaire simple pour représenter la relation entre les ventes y Ventes trimestrielles (en milliers de dollars) 220 200 180 160 140 120 100 80 60 40 20 0 2 4 6 8 10 12 14 16 18 20 22 24 26 x Population étudiante (en milliers) Figure 12.3 Nuage de points de la population étudiante et des ventes trimestrielles pour les restaurants Armand Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 677 La méthode des moindres carrés trimestrielles et la population étudiante. L’étape suivante consiste à utiliser les données d’échantillon du tableau 12.1 pour déterminer les valeurs de b0 et b1 dans l’équation estimée de la régression linéaire simple. Pour le ie restaurant, l’équation estimée de la régression s’écrit où yˆ i = b0 + b1 xi (12.4) ŷi correspond à la valeur estimée des ventes trimestrielles (en milliers de dollars) du ie restaurant b0 correspond à l’ordonnée à l’origine de la droite de régression estimée b1 correspond à la pente de la droite de régression estimée xi correspond à la taille de la population étudiante (en milliers) associée au ie restaurant Avec les ventes trimestrielles observées (réelles) du restaurant i notées yi et ŷi représentant la valeur estimée des ventes trimestrielles du ie restaurant, chaque restaurant de l’échantillon est caractérisé par une valeur observée des ventes trimestrielles yi et une valeur estimée des ventes trimestrielles yˆ i. Si l’écart entre les valeurs observées et les valeurs estimées est faible, on peut considérer que la droite de régression estimée est bien adaptée aux données. La méthode des moindres carrés utilise les données de l’échantillon pour fournir les valeurs de b0 et b1 qui minimisent la somme des écarts au carré entre les valeurs observées de la variable dépendante yi et les valeurs estimées de cette dernière yˆ i. L’expression (12.5) formule le critère de la méthode des moindres carrés. ► Critère des moindres carrés où min ∑ (y i − yˆi ) 2 (12.5) y i correspond à la valeur observée de la ie observation de la variable dépendante ŷ i correspond à la valeur estimée de la ie observation de la variable dépendante La méthode des moindres carrés a été élaborée par Carl Friedrich Gauss (1777-1855). Un calcul différentiel permet de démontrer que les valeurs de b0 et b1 qui minimisent l’expression (12.5), peuvent être obtenues en utilisant les expressions (12.6) et (12.7). Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 678 RÉGRESSION LINÉAIRE SIMPLE ► Pente et ordonnée à l’origine de l’équation estimée de la régression1 b1 = ∑ ( x − x ) (y − y ) ∑ (x − x ) i i 2 (12.6) i où (12.7) b0 = y − b1x x i correspond à la valeur de la ie observation de la variable indépendante y i correspond à la valeur de la ie observation de la variable dépendante x correspond à la moyenne de la variable indépendante y correspond à la moyenne de la variable dépendante n correspond au nombre total d’observations Lors du calcul de b1 avec une calculatrice, utilisez le plus grand nombre possible de chiffres décimaux dans les calculs intermédiaires. Nous recommandons d’utiliser au moins quatre chiffres après la virgule. Le tableau 12.2 présente certains calculs nécessaires à l’obtention de l’équation estimée de la régression des moindres carrés dans le cadre des restaurants Armand. Avec un échantillon de 10 restaurants, nous avons 10 observations (n = 10). Nous commençons par calculer x et y , nécessaires à l’application des équations (12.6) et (12.7). ∑x 140 = 14 n 10 ∑ yi = 1 300 = 130 y= n 10 x = i = En utilisant les expressions (12.6) et (12.7), et les informations contenues dans le tableau 12.2, nous pouvons calculer la pente et l’ordonnée à l’origine de l’équation estimée de la régression dans le cadre des restaurants Armand. Les calculs de la pente (b1) suivent. b1 = ∑ (x − x ) ( y − y ) ∑ (x − x ) i i 2 i = 1 Une formule alternative pour b1 est b1 = 2 840 =5 568 ∑ x y − (∑ x ∑y ) ∑ x − ( ∑x ) n i i i 2 i i 2 n. Cette forme de l’équation (12.6) est souvent i recommandée lorsqu’une calculatrice est utilisée pour obtenir b1. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 679 La méthode des moindres carrés Tableau 12.2 Calculs associés à l’estimation par les moindres carrés de l’équation de la régression pour les restaurants Armand xi − x yi − y ( xi − x ) (y i − y ) ( xi − x ) 58 105 88 118 117 137 157 169 149 – 12 –8 –6 –6 –2 2 6 6 8 – 72 – 25 – 42 – 12 – 13 7 27 39 19 864 200 252 72 26 14 162 234 152 144 64 36 36 4 4 36 36 64 26 202 12 72 864 144 140 1 300 ∑ xi ∑y i Restaurant i xi yi 1 2 3 4 5 6 7 8 9 2 6 8 8 12 16 20 20 22 10 Totaux 2 840 ∑( x i − x )( y i − y ) 2 568 ∑( xi − x ) 2 Les calculs de l’ordonnée à l’origine (b0) suivent. b0 = y − b1 x = 130 − 5(14) = 60 Ainsi, l’équation estimée de la régression s’écrit : yˆ = 60 + 5x Le graphique 12.4 représente cette équation au milieu du nuage de points. La pente de l’équation estimée de la régression (b1 = 5) est positive, impliquant que lorsque la taille de la population étudiante augmente, les ventes trimestrielles augmentent. En fait, nous pouvons conclure qu’une augmentation de la taille de la population de 1 000 étudiants entraînera une augmentation des ventes trimestrielles de 5 000 dollars ; en d’autres termes, les ventes trimestrielles devraient augmenter de 5 dollars par étudiant. Si nous pensons que l’équation estimée par la méthode des moindres carrés décrit correctement la relation entre x et y, il est raisonnable d’utiliser l’équation estimée de la régression pour prévoir la valeur de y pour une valeur donnée de x. Par exemple, si nous voulions prévoir les ventes d’un restaurant situé près d’un campus de 16 000 étudiants, nous calculerions ŷ = 60 + 5 (16 ) = 140 Par conséquent, nous prévoirions des ventes trimestrielles d’un montant de 140 000 dollars dans ce restaurant. Dans les sections suivantes, nous discuterons des méthodes qui permettent de juger de la pertinence de l’utilisation de l’équation estimée de la régression pour effectuer des prévisions. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 680 RÉGRESSION LINÉAIRE SIMPLE Ventes trimestrielles (en milliers de dollars) y Ordonnée à l’origine b0 = 60 220 200 180 160 140 0+ 6 y= ^ 5x 120 Pente b1 = 5 100 80 60 40 20 0 2 4 6 8 10 12 14 16 18 20 22 24 26 x Population étudiante (en milliers) Figure 12.4 Graphique de l’équation estimée de la régression pour les restaurants Armand : ŷi = 60 + 5x Il faut être prudent lorsqu’on utilise l’équation estimée de la régression pour effectuer des prévisions pour des valeurs de la variable indépendante qui sortent de l’intervalle étudié, car il n’est pas certain que la relation reste valable pour de telles valeurs de la variable indépendante. REMARQUES La méthode des moindres carrés fournit une équation estimée de la régression qui minimise la somme des écarts au carré entre les valeurs observées de la variable dépendante, y i et les valeurs estimées de la variable dépendante, yˆi. Le critère des moindres carrés permet d’obtenir l’équation la mieux adaptée aux données. Si on utilise d’autres critères, tels que la minimisation de la somme des écarts en valeur absolue entre y i et yˆi , on obtiendra une équation différente. En pratique, la méthode des moindres carrés est la plus répandue. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 680 RÉGRESSION LINÉAIRE SIMPLE Ventes trimestrielles (en milliers de dollars) y Ordonnée à l’origine b0 = 60 220 200 180 160 140 0+ 6 y= ^ 5x 120 Pente b1 = 5 100 80 60 40 20 0 2 4 6 8 10 12 14 16 18 20 22 24 26 x Population étudiante (en milliers) Figure 12.4 Graphique de l’équation estimée de la régression pour les restaurants Armand : ŷi = 60 + 5x Il faut être prudent lorsqu’on utilise l’équation estimée de la régression pour effectuer des prévisions pour des valeurs de la variable indépendante qui sortent de l’intervalle étudié, car il n’est pas certain que la relation reste valable pour de telles valeurs de la variable indépendante. REMARQUES La méthode des moindres carrés fournit une équation estimée de la régression qui minimise la somme des écarts au carré entre les valeurs observées de la variable dépendante, y i et les valeurs estimées de la variable dépendante, yˆi. Le critère des moindres carrés permet d’obtenir l’équation la mieux adaptée aux données. Si on utilise d’autres critères, tels que la minimisation de la somme des écarts en valeur absolue entre y i et yˆi , on obtiendra une équation différente. En pratique, la méthode des moindres carrés est la plus répandue. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 689 Le coefficient de détermination Marque et modèle Prix ($) Note globale Garmin Nuvi 1350T 150 65 Garmin Nuvi 1350 LMT 180 65 Garmin Nuvi 2300 160 65 Garmin Nuvi 1350 130 64 Tom Tom VAI 1435T 200 62 Garmin Nuvi 1300 140 62 Garmin Nuvi 1300LM 180 62 a) Représenter le nuage de points associé à ces données en utilisant le prix comme variable indépendante. b) Quelle relation entre les deux variables le nuage de points indique-t-il ? c) Utiliser la méthode des moindres carrés pour estimer l’équation de la régression. d) Prédire la note globale d’un GPS de 4,3 pouces dont le prix serait de 200 dollars. 12.3 LE COEFFICIENT DE DÉTERMINATION Dans le cadre des restaurants Armand, nous avons estimé l’équation de la régression yˆ = 60 + 5x pour déterminer la relation linéaire entre la taille de la population étudiante x et les ventes trimestrielles y. À présent la question est : Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle aux données ? Dans cette section, nous montrerons que le coefficient de détermination fournit une mesure de l’adéquation de l’équation estimée de la régression aux données. Pour la ie observation, l’écart entre la valeur observée de la variable dépendante, yi , et la valeur estimée de la variable dépendante, yˆ i , est appelé le ie résidu. Le ie résidu représente l’erreur commise en utilisant ŷi pour estimer yi. Ainsi, pour la ie observation, le résidu est égal à yi − yˆ i. La somme de ces résidus, ou erreurs, au carré correspond à la quantité minimisée par la méthode des moindres carrés. Cette quantité, aussi appelée somme des carrés des résidus, est notée SCres. ► Somme des carrés des résidus SCres = ∑ (y i − yˆi ) 2 (12.8) La valeur de SCres est une mesure de l’erreur commise en utilisant l’équation estimée de la régression pour estimer les valeurs de la variable dépendante dans l’échantillon. Dans le tableau 12.3, nous détaillons les calculs nécessaires pour obtenir la somme des carrés des résidus dans le cadre de l’exemple des restaurants Armand. Par exemple, pour le restaurant 1, la valeur de la variable indépendante et celle de la variable dépendante sont respectivement 2 et 58. En utilisant l’équation estimée de la Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 690 RÉGRESSION LINÉAIRE SIMPLE régression, nous trouvons que la valeur estimée des ventes trimestrielles du restaurant 1 est égale à 70 ( yˆ1 = 60 + 5(2) = 70). Ainsi, l’erreur commise en utilisant yˆ1 pour estimer y1 pour le restaurant 1 est égale à y1 − yˆ1 = 58 − 70 = − 12. L’erreur élevée au carré, ( − 12)2 = 144, est notée dans la dernière colonne du tableau 12.3. Après avoir calculé et élevé au carré les résidus pour chaque restaurant de l’échantillon, la somme nous donne une SCres égale à 1 530. Ainsi, cette quantité mesure l’erreur commise en utilisant l’équation estimée de la régression yˆ = 60 + 5x pour prévoir les ventes trimestrielles. Supposons maintenant que nous voulions estimer les ventes trimestrielles sans connaître la taille de la population étudiante. Dans ce cas, nous utilisons la moyenne d’échantillon comme estimation des ventes trimestrielles d’un restaurant donné. D’après le tableau 12.2, ∑ yi = 1 300. Par conséquent, la valeur moyenne des ventes trimestrielles pour l’échantillon des 10 restaurants Armand est y = ∑ yi n = 1 300 10 = 130. Dans le tableau 12.4, nous indiquons la valeur de la somme des écarts au carré obtenue en utilisant la moyenne d’échantillon y = 130 pour estimer les ventes trimestrielles pour chaque restaurant de l’échantillon. Pour le ie restaurant de l’échantillon, l’écart yi − y fournit une mesure de l’erreur commise en utilisant y pour estimer les ventes. La somme des carrés correspondante, appelée somme des carrés totale, est notée SCT. ► Somme des carrés totale SCT = ∑ (y i −y) 2 (12.9) La somme en bas de la dernière colonne du tableau 12.4 correspond à la somme des carrés totale pour les restaurants Armand ; elle est égale à 15 730. Tableau 12.3 Calculs de SCres pour les restaurants Armand y i = Ventes trimestrielles (en milliers de dollars) Ventes prévues ŷ i = 60 + 5x i Erreur y i − yˆ i Erreur au carré Restaurant i x i = Population étudiante (en milliers) 1 2 58 70 – 12 2 6 105 90 15 225 3 8 88 100 – 12 144 4 8 118 100 18 324 5 12 117 120 –3 9 6 16 137 140 –3 9 7 20 157 160 –3 9 8 20 169 160 9 81 9 22 149 170 – 21 441 10 26 202 190 12 144 (y i − yˆ i ) 144 SCres = 1530 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 2 691 Le coefficient de détermination Tableau 12.4 Calculs de la somme des carrés totale pour les restaurants Armand Restaurant i x i = Population étudiante (en milliers) y i = Ventes trimestrielles (en milliers de dollars) Écart y i − y 1 2 58 – 72 2 6 105 – 25 625 3 8 88 – 42 1 764 4 8 118 – 12 144 5 12 117 – 13 169 6 16 137 7 49 7 20 157 27 729 8 20 169 39 1 521 9 22 149 19 361 10 26 202 72 5 184 Écart au carré (y i −y ) 2 5 184 SCT = 15 730 La figure 12.5 représente la droite de régression estimée yˆ = 60 + 5x et la droite correspondant à y = 130. Notez que les points sont plus regroupés autour de la droite de régression estimée qu’autour de la droite y = 130. Par exemple, pour le 10e restaurant de l’échantillon, l’erreur est beaucoup plus importante lorsqu’on utilise y = 130 pour estimer y10 que lorsqu’on utilise yˆ10 = 60 + 5(26) = 190. Nous pouvons interpréter SCT comme une mesure de l’ajustement des observations autour de la droite y et SCres comme une mesure de l’ajustement des observations autour de la droite yˆ. Avec SCT = 15 730 et SCres = 1530, la droite de régression estimée est mieux ajustée aux données que la droite y = y. Pour déterminer dans quelle mesure les valeurs ŷ de la droite de la régression estimée dévient de y , une autre somme des carrés est calculée. Cette somme des carrées, appelée somme des carrés de la régression, est notée SCreg. ► Somme des carrés de la régression SCreg = ∑ ( yˆ i −y) 2 (12.10) De par les précédentes discussions, on s’attend à ce que SCT, SCreg et SCres soient liées. De fait, la relation entre ces trois sommes des carrés fournit l’un des plus importants résultats en statistique. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 692 RÉGRESSION LINÉAIRE SIMPLE y Ventes trimestrielles (en milliers de dollars) 220 y10 – y^10 200 180 160 y= ^ 140 60 y10 – y y^10 – y x +5 y = y = 130 120 100 80 60 40 20 0 2 4 6 8 10 12 14 16 18 20 22 24 26 x Population étudiante (en milliers) Figure 12.5 Écarts par rapport à la droite de régression estimée et à la droite y = y dans le cadre des restaurants Armand ► Relation entre SCT, SCreg et SCres où SCT = SCreg + SCres (12.11) SCT correspond à la somme des carrés totale SCreg correspond à la somme des carrés de la régression SCres correspond à la somme des carrés des résidus SCreg peut être considérée comme la partie expliquée de SCT, et SCres comme la partie inexpliquée de SCT. L’équation (12.11) indique que la somme des carrés totale peut être divisée en deux parties, la somme des carrés de la régression et la somme des carrés des résidus. Par conséquent, si les valeurs de ces deux sommes des carrés sont connues, la troisième somme des carrés peut être facilement calculée. Par exemple, dans le cadre de l’exemple des restaurants Armand, nous savons déjà que SCres est égale à 1 530 et SCT est égale à 15 730. La somme des carrés de la régression est donc égale à SCreg = SCT − SCres = 15 730 − 1 530 = 14 200 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 693 Le coefficient de détermination Voyons maintenant comment ces trois sommes, SCT, SCreg et SCres, peuvent fournir une mesure de l’adéquation de l’équation estimée de la régression. L’équation estimée de la régression s’ajusterait parfaitement aux données si toutes les valeurs de la variable dépendante yi se trouvaient sur la droite de régression estimée. Dans ce cas, yi − yˆ i serait nul pour chaque observation, et par conséquent SCres serait égale à zéro. Puisque SCT = SCreg + SCres, un parfait ajustement implique que SCreg soit égal à SCT et que le ratio SCreg SCT soit égal à un. Plus l’ajustement est imparfait, plus la valeur de SCres sera grande. Or, d’après l’équation (12.11), SCres = SCT − SCreg. Par conséquent, la plus grande valeur de SCres (et l’ajustement le plus imparfait) intervient lorsque SCreg = 0 et SCres = SCT. ( ) ( ) Le ratio SCreg SCT , compris entre zéro et un, est utilisé pour évaluer l’adéquation de l’équation estimée de la régression aux données. Ce ratio est appelé coefficient de détermination et est noté r 2. ► Coefficient de détermination r2 = SCreg SCT (12.12) Dans l’exemple des restaurants Armand, le coefficient de détermination est égal à r2 = SCreg 14 200 = = 0,9027 15 730 SCT Lorsqu’on exprime le coefficient de détermination en termes de pourcentage, on peut l’interpréter comme le pourcentage de la somme des carrés totale expliquée par l’équation estimée de la régression. Dans le cadre de l’exemple des restaurants Armand, nous concluons que 90,27 % de la somme des carrés totale peut être expliquée en utilisant l’équation estimée de la régression yˆ = 60 + 5x pour prévoir les ventes trimestrielles. En d’autres termes, 90,27 % de la variation des ventes trimestrielles peut s’expliquer par la relation linéaire entre la taille de la population étudiante et les ventes trimestrielles. Une telle adéquation de l’équation estimée de la régression est satisfaisante. 12.3.1 Coefficient de corrélation Au chapitre 3, nous avons introduit le coefficient de corrélation en tant que mesure descriptive de la robustesse de l’association linéaire entre deux variables, x et y. Le coefficient de corrélation est toujours compris entre –1 et +1. Une valeur égale à +1 indique que les deux variables x et y sont parfaitement liées de façon positive. En d’autres termes, tous les points sont sur une droite de pente positive. Une valeur égale à –1 indique que x et y sont parfaitement liés de façon négative, tous les points étant sur une droite de pente négative. Des valeurs proches de zéro indiquent que x et y ne sont pas linéairement liés. Dans la section 3.5, nous avons présenté la formule de calcul du coefficient de corrélation d’un échantillon. Si une analyse de la régression a déjà été faite et si le coefficient de détermination r 2 a déjà été calculé, le coefficient de corrélation de l’échantillon peut être calculé de la façon suivante : Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 694 RÉGRESSION LINÉAIRE SIMPLE ► Coefficient de corrélation d’un échantillon rxy = ( signe de b1 ) Coefficient de détermination = ( signe de b1 ) r 2 (12.13) où b1 correspond à la pente de l’équation estimée de la régression yˆ = b0 + b1x. Le signe du coefficient de corrélation d’un échantillon est positif si l’équation estimée de la régression est de pente positive (b1 > 0) et négatif si l’équation estimée de la régression est de pente négative (b1 < 0). Pour l’exemple des restaurants Armand, le coefficient de détermination correspondant à l’équation estimée de la régression yˆ = 60 + 5x est égal à 0,9027. Puisque la pente de l’équation estimée de la régression est positive, la formule (12.13) indique que le coefficient de corrélation est égal à + 0,9027 = + 0,9501. Avec un coefficient de corrélation égal à rxy = + 0,9501, on peut conclure qu’il existe une forte relation linéaire positive entre x et y. Dans le cas d’une relation linéaire entre deux variables, à la fois le coefficient de détermination et le coefficient de corrélation fournissent une mesure de la robustesse de la relation. Le coefficient de détermination fournit une mesure entre zéro et un, alors que le coefficient de corrélation fournit une mesure entre –1 et +1. Alors que le coefficient de corrélation est restreint à des relations linéaires entre deux variables, le coefficient de détermination peut être utilisé dans le cas de relations non-linéaires et de relations comprenant plus de deux variables indépendantes. Le coefficient de détermination a donc un champ d’application plus large. REMARQUES 1. En estimant l’équation de la régression par les moindres carrés et en calculant le coefficient de détermination, nous n’avons fait aucune hypothèse probabiliste sur le terme d’erreur ε et aucun test statistique relatif à la significativité de la relation entre x et y. Plus la valeur du coefficient de détermination est élevée, meilleure est l’adéquation de la droite des moindres carrés aux données ; c’est-à-dire, les observations sont bien regroupées autour de la droite des moindres carrés. Mais, en utilisant le coefficient de détermination seul, nous ne pouvons pas dire si la relation entre x et y est statistiquement significative. Une telle conclusion doit être fondée sur des considérations qui impliquent la taille de l’échantillon et les propriétés des distributions d’échantillonnage des estimateurs des moindres carrés. 2. D’un point de vue empirique, en sciences sociales, des valeurs du coefficient de détermination aussi petites que 0,25 sont souvent considérées comme utiles. Pour des données en sciences physiques ou naturelles, on trouve souvent des valeurs supérieures ou égales à 0,60 ; en fait, dans certains cas, on peut trouver des valeurs supérieures à 0,90. Dans les applications commerciales, les valeurs du coefficient de détermination varient beaucoup, en fonction des caractéristiques particulières de chaque exemple. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 698 RÉGRESSION Société LINÉAIRE SIMPLE Véhicules (milliers) Revenu (millions de dollars) U-Save Auto Rental System, Inc. 11,5 118 Payless Car Rental System, Inc. 10,0 135 ACE Rent A Car 9,0 100 Rent-A-Wreck of America 5,5 37 Triangle Rent-A-Car 4,2 40 Affordable/Sensible 3,3 32 Avec x le nombre de véhicules en service (en milliers) et y le revenu annuel (en millions de dollars), l’équation estimée de la régression est yˆ = − 17,005 + 12,966 x. Pour ces données, SCres = 1 043,03. a) Calculer le coefficient de détermination. b) L’équation estimée de la régression est-elle bien ajustée aux données ? Expliquer. c) Quel est le coefficient de corrélation de l’échantillon ? Reflète-t-il une relation forte ou faible entre le prix et la note ? 12.4 LES HYPOTHÈSES DU MODÈLE Dans le cadre de l’analyse de la régression linéaire simple, nous avons fait une hypothèse sur le modèle approprié pour estimer la relation entre la variable dépendante et la variable indépendante. Le modèle de la régression estimé est y = β 0 + β1 x + ε Ensuite, nous avons utilisé la méthode des moindres carrés pour estimer les paramètres du modèle β 0 et β1. L’équation de la régression estimée qui en résulte s’écrit yˆ = b0 + b1 x Nous avons vu que la valeur du coefficient de détermination est une mesure de l’adéquation de l’équation estimée de la régression. Cependant, même avec une valeur élevée de r 2 , l’équation estimée de la régression ne devrait pas être utilisée tant qu’une analyse plus approfondie de la robustesse du modèle n’a pas été faite. Une étape importante dans la détermination de la robustesse du modèle consiste à effectuer un test de signification de la relation. Les tests de signification dans l’analyse de la régression sont basés sur les hypothèses suivantes concernant le terme d’erreur ε. ► Hypothèses sur le terme d’erreur ε dans le modèle de la régression y = β 0 + β1x + ε 1. Le terme d’erreur ε est une variable aléatoire de moyenne nulle ; c’est-à-dire, E ( ε ) = 0. Conséquences : Puisque β 0 et β1 sont des constantes, E ( β ) = β et E ( β ) = β ; 0 0 1 1 ainsi, pour une valeur donnée de x, l’espérance mathématique de y est égale à Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 699 Les hypothèses du modèle E ( y ) = β 0 + β1x (12.14) Comme indiqué précédemment, l’expression (12.14) correspond à l’équation de la régression. 2. La variance de ε , notée σ 2 , est la même pour toutes les valeurs de x. Conséquences : La variance de y pour une valeur donnée de x est égale à σ 2 et est la même pour toutes les valeurs de x. 3. Les valeurs de ε sont indépendantes. Conséquences : La valeur de ε associée à une valeur particulière de x n’est pas liée à la valeur de ε associée à une autre valeur de x ; ainsi, la valeur de y associée à une valeur particulière de x n’est pas liée à la valeur de y associée à une autre valeur de x. 4. Le terme d’erreur ε est une variable aléatoire normalement distribuée. Conséquences : Puisque y est une fonction linéaire de ε , y est également une variable aléatoire normalement distribuée. Distribution de y lorsque x = 20 Distribution de y lorsque x = 30 y Distribution de y lorsque x = 10 E (y ) lorsque x = 10 E (y ) lorsque x=0 b0 x=0 x = 10 x = 20 x = 30 E (y ) lorsque x = 20 E (y ) lorsque x = 30 Remarque : Les distributions de y ont la même forme quelle que soit la valeur de x. Figure 12.6 Hypothèses du modèle de régression Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. E (y ) = b0 + b1x x 700 RÉGRESSION LINÉAIRE SIMPLE La figure 12.6 est une illustration des hypothèses du modèle et de leurs conséquences ; notez que dans cette interprétation graphique, la valeur de E ( y ) varie selon la valeur de x considérée. Cependant, sans tenir compte de la valeur de x, la distribution de probabilité de ε et donc la distribution de probabilité de y sont normales, chacune avec la même variance. La valeur spécifique du terme d’erreur ε dépend du fait que la valeur réelle de y soit supérieure ou inférieure à E ( y ). À ce point de la discussion, nous devons garder en mémoire le fait que nous avons également fait une hypothèse sur la forme de la relation entre x et y. En effet, nous avons supposé que la relation entre ces deux variables est linéaire, plus précisément de la forme β 0 + β1 x. Nous ne devons pas oublier que d’autres modèles, par exemple y = β 0 + β1 x 2 + ε , peuvent être plus appropriés pour décrire la relation qui lie x et y. 12.5 LES TESTS DE SIGNIFICATION Dans une équation de régression linéaire simple, la moyenne ou l’espérance mathématique de y est une fonction linéaire de x : E ( y ) = β 0 + β1 x. Si la valeur de β1 est égale à zéro, E ( y ) = β 0 + (0) x = β 0. Dans ce cas, la moyenne de y ne dépend pas de la valeur de x ; nous pouvons donc en conclure que x et y ne sont pas linéairement liés. Par contre, si β1 n’est pas égal à zéro, nous pouvons en conclure que les deux variables sont liées. Ainsi, pour tester si la relation est significative, nous devons effectuer un test d’hypothèses pour déterminer si β1 est égal à zéro. Deux tests sont habituellement utilisés. Les deux requièrent une estimation de σ 2 , la variance de ε. 12.5.1 Estimation de s 2 À partir des hypothèses du modèle de régression, nous pouvons conclure que σ 2, la variance de ε, représente également la variance de y le long de la droite de régression. Rappelons que les écarts de y par rapport à la droite de régression estimée sont appelés les résidus. Ainsi, SCres, la somme des carrés des résidus, est une mesure de la variabilité de y le long de la droite de régression estimée. La moyenne des carrés des résidus (MCres) fournit une estimation de σ 2 ; cette moyenne des carrés des résidus correspond à la somme des carrés des résidus divisée par le nombre de ses degrés de liberté. Avec yˆ i = b0 + b1 xi , la somme des carrés des résidus s’écrit : SCres = ∑(y i − yˆ i )2 = ∑(y i − b0 − b1 xi )2 À chaque somme des carrés est associé un nombre, appelé degrés de liberté. Des statisticiens ont démontré que la somme des carrés des résidus a n − 2 degrés de liberté, puisque deux paramètres ( β 0 et β1) doivent être estimés pour calculer cette somme des carrés des résidus. Ainsi, la moyenne des carrés des résidus est calculée en divisant SCres par n − 2. MCres fournit une estimation sans biais de σ 2. Puisque la valeur de la moyenne des carrés des résidus fournit une estimation de σ 2 , la notation s 2 est aussi utilisée. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 701 Les tests de signification ► Moyenne des carrés des résidus (estimation de s 2) s 2 = MCres = SCres n−2 (12.15) Dans la section 12.3, nous avons montré que la somme des carrés des résidus, dans le cadre de l’exemple des restaurants Armand, est égale à 1 530 ; par conséquent, 1 530 s 2 = MCres = = 191, 25 8 fournit une estimation sans biais de σ 2. Pour estimer σ , nous prenons la racine carrée de s 2. La valeur correspondante, s, est appelée erreur type de l’estimation. ► ERREUR TYPE DE L’ESTIMATION s= MCres = SCres n−2 (12.16) Dans l’exemple des restaurants Armand, s = MCres = 191, 25 = 13,829. Dans la discussion qui suit, nous utiliserons l’erreur type de l’estimation pour effectuer des tests de signification de la relation entre x et y. 12.5.2 Le test t de Student Le modèle de régression linéaire simple s’écrit y = β 0 + β1 x + ε. Si x et y sont linéairement liés, nous devons avoir β1 ≠ 0. Le but du test de Student est d’utiliser les données de l’échantillon pour conclure si β1 ≠ 0. On teste les hypothèses suivantes concernant β1 : H 0 : β1 = 0 H a : β1 ≠ 0 Si on rejette H0, on en conclut que β1 ≠ 0 et qu’une relation statistiquement significative existe entre les deux variables. Cependant, si on ne peut pas rejeter H 0 , les preuves statistiques sont insuffisantes pour conclure qu’une relation significative existe. Les propriétés d’échantillonnage de b1 , l’estimateur des moindres carrés de β1 , fournissent les bases du test d’hypothèses. Tout d’abord, considérons ce qui se serait passé si nous avions utilisé un autre échantillon pour effectuer la même analyse de la régression. Par exemple, supposons que nous ayons collecté des données sur les ventes trimestrielles d’un échantillon de dix autres restaurants Armand. Une analyse de la régression de ce nouvel échantillon devrait fournir une équation similaire à celle obtenue précédemment, yˆ = 60 + 5x. Cependant, il est très peu probable que nous obtenions exactement la même équation avec une ordonnée à l’origine égale à 60 et une pente égale à 5. En fait, b0 et b1 , les estimateurs des moindres carrés, sont des statistiques d’échantillon qui ont leur propre distribution d’échantillonnage. Les propriétés de la distribution d’échantillonnage de b1 sont décrites ci-dessous. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 702 RÉGRESSION LINÉAIRE SIMPLE ► Distribution d’échantillonnage de b1 Espérance mathématique : E (b1 ) = β1 Écart type : σ σb = ∑ (x 1 i − x) (12.17) 2 Forme de la distribution : Normale Notez que l’espérance mathématique de b1 est égale à β1 ; b1 est donc un estimateur sans biais de β1. Puisque que nous ne connaissons pas la valeur de σ , nous estimons σ b en rem1 plaçant σ par s dans l’équation (12.17). Nous obtenons ainsi l’estimateur suivant de σ b. 1 ► Écart type estimé de b1 s sb = ∑ (x 1 i − x) (12.18) 2 L’écart type de b1 est également appelé erreur type de b1. Ainsi, sb fournit une estimation 1 de l’erreur type de b1. Dans l’exemple des restaurants Armand, s = 13,829. Par conséquent, en utilisant les informations contenues dans le tableau 12.2, à savoir que ∑ ( xi − x )2 = 568, nous obtenons 13,829 sb = 568 1 = 0,5803 comme écart type estimé de b1. Le test de signification de Student est basé sur le fait que la statistique de test b1 − β1 sb 1 suit une loi de Student à n − 2 degrés de liberté. Si l’hypothèse nulle est vraie, alors β1 = 0 et t = b1 sb. 1 Appliquons ce test de signification à l’exemple des restaurants Armand au seuil de signification α = 0,01. La statistique de test est égale à t= b1 sb = 5 = 8,62 0,5803 1 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 703 Les tests de signification D’après la table de la distribution de Student (table 2 de l’annexe D), avec n − 2 = 10 − 2 = 8 degrés de liberté, t = 3,355 fournit une aire égale à 0,005 dans la queue supérieure de la distribution. Ainsi, l’aire dans la queue supérieure de la distribution de Student correspondant à la statistique de test t = 8,62 doit être inférieure à 0,005. Puisque le test est bilatéral, nous multiplions cette valeur par deux pour conclure que la valeur p associée à t = 8,62 est inférieure à 0,01. Minitab ou Excel indiquent que la valeur p est égale à 0,000. Puisque la valeur p est inférieure à α = 0,01, nous rejetons H 0 et concluons que β1 n’est pas égal à zéro. Les preuves statistiques sont suffisantes pour conclure qu’il existe une relation significative entre la population étudiante et les ventes trimestrielles. Un résumé du test de signification de Student dans le cadre d’une régression linéaire simple suit. Les annexes 12.1 et 12.2 montrent comment utiliser Minitab et Excel pour calculer la valeur p. ► Test de signification de Student dans le cadre d’une régression linéaire simple H0 : β1 = 0 Ha : β1 ≠ 0 ► Statistique de test t = b1 (12.19) sb 1 ► Règle de rejet Approche par la valeur p : Rejet de H0 si la valeur p ≤ α Approche par la valeur critique : Rejet de H0 si t ≤ −t α 2 ou si t ≥ t α 2 où t α 2 est basé sur la distribution de Student à n − 2 degrés de liberté. 12.5.3 Intervalle de confiance pour b1 La forme de l’intervalle de confiance pour β1 est : b1 ± tα 2 sb 1 L’estimateur ponctuel est b1 et la marge d’erreur est tα 2 sb. Le coefficient de confiance 1 associé à cet intervalle est 1 − α et tα 2 correspond à la valeur t fournissant une aire égale à α 2 dans la queue supérieure de la distribution de Student à n − 2 degrés de liberté. Par exemple, supposez que nous voulions construire un intervalle de confiance à 99 % pour β1 dans le cadre des restaurants Armand. D’après la table 2 de l’annexe B, la valeur t associée à α = 0,01 et n − 2 = 10 − 2 = 8 degrés de liberté est égale à t0,005 = 3,355. Ainsi, l’intervalle de confiance à 99 % pour β1 est b1 ± tα 2 sb = 5 ± 3,355(0,5803) = 5 ± 1,95 1 soit de 3,05 à 6,95. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 704 RÉGRESSION LINÉAIRE SIMPLE En utilisant le test de signification de Student, les hypothèses testées étaient H 0 : β1 = 0 H a : β1 ≠ 0 Au seuil de signification α = 0,01, l’intervalle de confiance à 99 % nous offre une solution alternative pour effectuer le test d’hypothèses dans le cadre des restaurants Armand. Puisque 0, la valeur hypothétique de β1 , n’appartient pas à l’intervalle de confiance (de 3,05 à 6,95), nous pouvons rejeter H 0 et conclure qu’une relation statistiquement significative existe entre la taille de la population étudiante et les ventes trimestrielles. En général, un intervalle de confiance peut être utilisé pour tester tous les jeux d’hypothèses bilatérales concernant β1. Si la valeur hypothétique de β1 appartient à l’intervalle de confiance, ne pas rejeter H 0. Sinon, rejeter H 0. 12.5.4 Le test F de Fisher Un test de Fisher, basé sur la distribution de Fisher, peut également être utilisé pour tester si une relation est significative. Avec une seule variable indépendante, le test de Fisher conduit à la même conclusion que le test de Student ; c’est-à-dire, si le test de Student conclut que β1 ≠ 0 et qu’il existe une relation significative entre les variables, le test de Fisher conclura également à l’existence d’une relation significative. Par contre, avec plus d’une variable indépendante, seul le test de Fisher peut être utilisé pour tester la signification globale d’une relation. La logique qui sous-tend l’utilisation du test de Fisher pour déterminer si la relation est statistiquement significative, est basée sur la construction de deux estimations indépendantes de σ 2. Nous avons vu que la moyenne des carrés des résidus, MCres, fournit une estimation de σ 2. Si l’hypothèse nulle H 0 : β1 = 0 est vraie, la somme des carrés de la régression, SCreg, divisée par le nombre de ses degrés de liberté, fournit une autre estimation indépendante de σ 2. Cette estimation est appelée moyenne des carrés de la régression et est notée MCreg. De façon générale, MCreg = SCreg Nombre de degrés de liberté Pour les modèles de régression que nous considérons ici, le nombre de degrés de liberté est toujours égal au nombre de variables indépendantes ; ainsi, MCreg = SCreg Nombre de variables indépendantes (12.20) Puisque nous ne considérons dans ce chapitre que les modèles de régression à une seule variable indépendante, MCreg = SCreg 1 = SCreg. Dans le cadre de l’exemple des restaurants Armand, MCreg = SCreg = 14 200. Si l’hypothèse nulle (H 0 : β1 = 0) est vraie, MCreg et MCres sont deux estimations indépendantes de σ 2 et la distribution d’échantillonnage de MCreg MCres suit une loi de Fisher avec un degré de liberté au numérateur et n − 2 degrés de liberté au Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 705 Les tests de signification dénominateur. Par conséquent, lorsque β1 = 0, la valeur de MCreg MCres doit être proche de un. Par contre, si l’hypothèse nulle est fausse ( β1 ≠ 0), MCreg surestime σ 2 et la valeur de MCreg MCres augmente ; ainsi, des valeurs élevées de MCreg MCres conduisent au rejet de H 0 et à la conclusion selon laquelle la relation entre x et y est statistiquement significative. Appliquons le test de Fisher à l’exemple des restaurants Armand. La statistique de test est MCreg 14 200 F = = = 74, 25 MCres 191, 25 D’après la table 4 de l’annexe B, avec un degré de liberté au numérateur et 8 degrés de liberté au dénominateur, la valeur F = 11, 26 fournit une aire égale à 0,01 dans la queue supérieure de la distribution de Fisher. Ainsi, l’aire dans la queue supérieure de la distribution de Fisher correspondant à la statistique de test F = 74, 25 doit être inférieure à 0,01. Nous concluons par conséquent que la valeur p associée à cette statistique de test est inférieure à 0,01. Minitab ou Excel indiquent que la valeur p est égale à 0,000. Puisque la valeur p est inférieure à α = 0,01, nous rejetons H 0 et concluons que β1 n’est pas égal à zéro. Les preuves statistiques sont suffisantes pour conclure qu’il existe une relation significative entre la population étudiante et les ventes trimestrielles. Un résumé du test de Fisher dans le cadre d’une régression linéaire simple suit. Le test de Fisher et le test de Student fournissent des résultats identiques dans le cadre d’une régression linéaire simple. ► Test de signification de Fisher H0 : β1 = 0 Ha : β1 ≠ 0 ► Statistique de test F = MCreg MCres (12.21) ► Règle de rejet Approche par la valeur p : Rejet de H0 si la valeur p ≤ α Approche par la valeur critique : Rejet de H0 si F ≥ Fα où Fα est basé sur la distribution de Fisher à un degré de liberté au numérateur et n − 2 degrés de liberté au dénominateur. Si H0 est fausse, MCres reste un estimateur sans biais de σ 2 et MCreg surestime σ 2. Si H0 est vraie, à la fois MCres et MCreg sont des estimateurs sans biais de σ 2 ; dans ce cas, la valeur de MCreg MCres sera proche de un. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 706 RÉGRESSION LINÉAIRE SIMPLE Dans le chapitre 10, nous avons discuté de l’analyse de la variance (ANOVA) et montré comment utiliser un tableau ANOVA pour résumer les calculs de l’analyse de la variance. Un tableau ANOVA similaire peut être utilisé pour résumer les résultats du test de signification de Fisher. Le tableau 12.5 présente la forme générale d’un tableau ANOVA dans le cadre d’une étude de la régression impliquant une seule variable indépendante. Le tableau 12.6 présente le tableau ANOVA avec les calculs du test de Fisher effectué dans le cadre de l’exemple des restaurants Armand. Régression, résidus et totale sont les trois sources de variation, avec SCreg, SCres et SCT apparaissant dans la deuxième colonne. Les degrés de liberté, 1 pour Régression, n − 2 pour Résidus et n − 1 pour Totale, sont notés dans la troisième colonne. La quatrième colonne contient les valeurs de MCreg et MCres et la cinquième colonne, la valeur de F = MCreg MCres. La sixième et dernière colonne contient la valeur p correspondante à la valeur F obtenue dans la colonne 5. Presque tous les logiciels fournissent un résumé de l’analyse de la régression sous forme d’un tableau ANOVA. Dans chaque tableau d’analyse de la variance, la somme des carrés totale est égale à la somme de la somme des carrés de la régression et de la somme des carrés des résidus ; de plus, le nombre total de degrés de liberté est égal à la somme des degrés de liberté associés à la régression et des degrés de liberté associés aux résidus. Tableau 12.5 Forme générale d’un tableau ANOVA dans le cadre d’une régression linéaire simple Source de la variation Régression Somme des carrés Degrés de liberté SCreg 1 Résidu SCres n −2 Totale SCT n −1 Moyenne des carrés MCreg = SCreg 1 MCres = SCres n −2 F F= Valeur p MCreg MCres Tableau 12.6 Tableau ANOVA pour le problème des restaurants Armand Source de la variation Somme des carrés Degrés de liberté Moyenne des carrés F Valeur p 14 200 1 14 200 = 14 200 1 14 200 = 74, 25 191, 25 0,000 Résidu 1 530 8 1530 = 191, 25 8 Totale 15 730 9 Régression Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Les tests de signification 707 12.5.5 Quelques précautions à prendre dans l’interprétation des tests de signification Rejeter l’hypothèse nulle H 0 : β1 = 0 et conclure que la relation entre x et y est statistiquement significative ne nous permet pas de conclure qu’une relation de cause à effet lie x et y. Un analyste ne peut conclure à une relation de cause à effet que s’il dispose d’une justification théorique attestant de la causalité de la relation. Dans l’exemple des restaurants Armand, nous pouvons conclure qu’une relation significative existe entre la taille de la population étudiante x et les ventes trimestrielles y ; de plus, l’équation estimée de la régression yˆ = 60 + 5x correspond à l’estimation par les moindres carrés de la relation. Nous ne pouvons, cependant, pas conclure que des changements dans la population étudiante x causent des changements dans les ventes trimestrielles y, uniquement parce que nous avons identifié une relation statistiquement significative entre ces deux variables. La justesse d’une telle conclusion de causalité est laissée au jugement de l’analyste, étayé par une justification théorique. Les responsables des restaurants Armand pensaient que des augmentations de la population étudiante entraîneraient des augmentations des ventes trimestrielles. Ainsi, le résultat du test de signification leur permet de conclure qu’une relation de cause à effet existe. L’analyse de la régression, utilisée pour identifier l’existence d’une relation entre deux variables, ne prouve pas l’existence d’une quelconque relation de causalité. De plus, le fait de rejeter H 0 : β1 = 0 et de conclure à l’existence d’une relation significative ne nous permet pas de conclure que la relation entre x et y est linéaire. Nous pouvons seulement affirmer que x et y sont liés et qu’une relation linéaire explique une partie significative de la variabilité de y par rapport aux valeurs de x observées dans l’échantillon. La figure 12.7 illustre cette situation. Le test de signification a conduit au rejet de l’hypothèse nulle H 0 : β1 = 0 et à la conclusion que x et y sont significativement liés, mais la figure prouve que la relation effective entre x et y n’est pas linéaire. Bien qu’une approximation linéaire fournie par yˆ = b0 + b1 x soit correcte au regard des valeurs de x observées dans l’échantillon, elle devient plus mauvaise pour les valeurs de x qui n’appartiennent pas à l’échantillon. Dans la mesure où la relation est significative, nous pouvons utiliser, avec confiance, l’équation estimée de la régression pour effectuer des prévisions pour des valeurs de x appartenant à l’intervalle des valeurs observées dans l’échantillon. Dans le cadre de l’exemple des restaurants Armand, cet intervalle correspond aux valeurs de x comprises entre 2 et 26. Par contre, à moins que certains éléments indiquent que le modèle reste valable pour des valeurs de x situées hors de cet intervalle, les prévisions pour des valeurs de la variable indépendante qui n’appartiennent pas à l’intervalle observé, sont sujettes à caution. Dans l’exemple des restaurants Armand, puisque la relation de la régression est significative au seuil de 0,01, nous pouvons l’utiliser avec confiance pour prévoir les ventes trimestrielles des restaurants situés sur des campus dont la population étudiante varie entre 2 000 et 26 000 personnes. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 708 RÉGRESSION LINÉAIRE SIMPLE y Relation réelle y^ = b0 + b1x x Valeur de x la plus petite Valeur de x la plus grande Intervalle des valeurs observées de x Figure 12.7 Exemple d’approximation linéaire d’une relation non-linéaire REMARQUES 1. Les hypothèses faites à propos du terme d’erreur (section 12.4) rendent légitimes les tests de signification effectués dans cette section. Les propriétés de la distribution d’échantillonnage de b1 et les tests de Student et de Fisher découlent directement de ces hypothèses. 2. Ne confondez pas la signification statistique avec la signification pratique. Avec de très grands échantillons, des résultats statistiquement significatifs peuvent être obtenus pour de petites valeurs de b1 ; dans de tels cas, il faut être prudent en concluant que la relation est significative d’un point de vue pratique. 3. Un test de signification d’une relation linéaire entre x et y peut également être effectué en utilisant le coefficient de corrélation de l’échantillon rxy. Avec ρ xy correspondant au coefficient de corrélation de la population, les hypothèses sont les suivantes. H0 : ρ xy = 0 Ha : ρ xy ≠ 0 Si H0 est rejetée, on peut conclure à l’existence d’une relation significative. Le détail de ce test est fourni dans des ouvrages plus avancés. Cependant, les tests de Student et de Fisher présentés précédemment fournissent le même résultat que le test de signification effectué avec le coefficient de corrélation. Effectuer un test de signification avec le coefficient de corrélation est donc inutile si un test de Student ou de Fisher a déjà été effectué. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite.

Use Quizgecko on...
Browser
Browser