Méthodologie de recherche-294-326 PDF

Summary

Ce document présente des méthodes quantitatives explicatives, incluant des notions statistiques comme des tests non paramétriques, l'analyse de variance, et la régression logistique. L'ouvrage décrit les principes de base et fournit des exemples de mise en œuvre dans des études de cas.

Full Transcript

î * ' Chapitre 8 Choisir parmi les méthodes quantitatives explicatives Au sommaire de ce chapitre Christophe HAON (Grenoble École de Management ;...

î * ' Chapitre 8 Choisir parmi les méthodes quantitatives explicatives Au sommaire de ce chapitre Christophe HAON (Grenoble École de Management ; laboratoire CERAG - UMR CNRS) et Alain Traiter des données issues d'échan- JOLIBERT (université Pierre Mendès-France, Greno- tillons de petite taille ble ; laboratoire CERAG - UMR CNRS) Utiliser l'analyse de variance et ses extensions Estimer des modèles de régression linéaire et logistique C e chapitre a pour objet de présenter les principales caractéristiques des méthodes quantitatives explicatives. Les plus simples, comme les tests non paramétriques, détec- Pratiquer l'analyse discriminante tent l'influence d'une variable explicative sur une variable linéaire à expliquer. Dans la grande majorité des méthodes expli- Recourir à l'analyse canonique linéaire catives, l'influence est déduite d'associations, notamment de corrélations, la théorie fournissant le sens de la relation. Une erreur courante effectuée par le chercheur consiste à théoriser à partir d'associations observées. Or, deux variables peuvent être très fortement corrélées sans pour autant avoir une influence l'une sur l'autre. Dans les années 1950, une très forte corrélation existait entre la mortalité infantile au Japon et la consommation de bière de la côte ouest des États-Unis. Ces deux phénomènes étaient tout à fait indépendants car ils étaient dus à une vague de chaleur dans le Pacifique qui avait causé des problèmes sanitaires importants dans un Japon à peine remis de la Seconde Guerre mondiale et qui avait poussé les Américains à consommer plus de boissons fraîches. 1. Les tests non paramétriques La plupart des tests statistiques sont construits à partir d'hypothèses sur les distributions des variables étudiées chez les individus. Dans un grand nombre de situations, la distribution utilisée est la loi normale, caractérisée par des paramètres particuliers (d'où l'appellation « tests paramétriques ») comme la moyenne et la variance. À cela s'ajoute souvent la nécessité d'un nombre minimal d'observations, qui rend ces tests paramétriques inutilisa- bles sur les petits échantillons. À l'inverse, la validité des 282 Méthodologie de la recherche « tests non paramétriques » dépend beaucoup moins des paramètres de la population et de la taille de l'échantillon. De plus, ils s'appliquent à des variables nominales ou ordinales et à un ou plusieurs échantillons, ceux-ci pouvant être indépendants ou appariés. Ils s'appuient sur des tests d'hypothèse, dont l'hypothèse nulle concerne l'égalité des distributions ou l'absence de différence, et l'hypothèse inverse permet de déduire une inégalité des distributions ou l'existence de différence(s) entre échantillons. Ceci en fait une boîte à outils très utile lorsqu'on ne connaît pas la distribution ni les paramètres de la population étudiée et/ou que l'on souhaite travailler sur des échantillons de petite taille. Les tests non paramétriques sont nombreux et ont des usages différents. Le tableau 9.1 présente une nomenclature des tests présentés dans ce chapitre, établie en fonction des mesures des variables, du nombre d'échantillons concernés et de leurs relations. Tableau 8.1 : Nomenclature des tests non paramétriques 2 échantillons 1 k échantillons indépendants apparies indépendants appariés Nominale Chi-deux Chi-deux McNemar Chi-deux Q de Cochran Test exact de Fisher Ordinale Kolmogorov- Médiane Test du signe Kruskal-Wallis Friedman Smirnov U de Mann-Whitney Wilcoxon 1.1. Les tests non paramétriques pour variables nominales Tests adaptés à 1 ou 2 échantillons indépendants Le test du Chi-deux (parfois orthographié Khi-deux ou y}) est employé lorsque l'on teste l'adéquation de la distribu- tion d'une variable nominale à une distribution connue ( 1 échantillon) ou attendue, ou bien l'association entre deux variables nominales extraites de deux échantillons indépen- dants. Pour une utilisation, également possible, du test du Chi-deux sur k échantillons, voir plus loin. Le test exact de Fisher. Dans l'hypothèse où l'on cherche à tester l'association entre deux variables nominales, chacune possédant deux modalités, le test du Chi-deux peut continuer à s'appliquer. Cependant, lorsqu'on dispose d'un faible nombre de données (20 observations ou moins), et collectées auprès de deux échantillons indépendants, le test du Chi-deux ne peut s'utiliser. Dans ce cas, le recours au test exact de Fisher est nécessaire. Ce test présente, en outre, l'intérêt de calculer la probabilité exacte (sans passer par les tables statistiques) d'observer une répartition des quatre fréquences du tableau croisé. Tests adaptés à 2 échantillons appariés Le test de McNemar est utilisé pour mesurer les changements induits entre deux périodes (avant-après) par un traitement (rendez-vous, visite, etc.) et sur un même groupe de personnes. Chapitre 8 - Choisir parmi les méthodes quantitatives explicatives 283 1.2. Les tests non paramétriques pour variables ordinales Tests adaptés à 1 ou 2 échantillons indépendants Le test de Kolmogorov-Smirnov teste l'adéquation de la distribution d'une variable ordinale à une distribution connue ou attendue ( 1 échantillon) ou bien l'adéquation de deux distributions d'une même variable extraites de deux échantillons indépendants. Le test de la médiane permet de tester si deux échantillons indépendants ont des distribu- tions différentes ou encore qu'ils ont été tirés de populations qui ont une même médiane. Le test U de Mann-Whitney peut être utilisé pour tester si deux groupes indépendants ont été tirés d'une même population. Ce test très puissant est l'alternative la plus utile au test t lorsque les hypothèses du test t ne sont pas réunies. L'encadré 8.1 présente un exemple de mise en œuvre. , f» a.r-.Lf h Exemple de mise en œuvre du test U de Mann-Whitney r- Dans le cadre d'une étude de la « bulle Internet » du début des années 2000, Boisselier et Dufour s'intéressent au comportement des actionnaires des sociétés Internet au moment de leur introduction en Bourse. Parmi les comportements analysés figure la vente des actions par les actionnaires initiaux au moment de l'introduction. Dans un £ contexte de bulle, ces derniers ayant pu être tentés par la survalorisation des titres, l'hypothèse émise est qu'ils ont vendu leurs actions avec une fréquence plus élevée que les actionnaires d'autres sociétés, étudiées, quant à elles, sur la base d'un groupe témoin. Deux échantillons indépendants sont comparés : un échantillon de 32 sociétés Internet et un autre de 50 sociétés non-Internet constituant le groupe témoin. Les fréquences observées de cessions sont traitées au niveau ordinal afin de permettre la mise en œuvre d'un test U de Mann-Whitney. La signification associée au résultat excède 0,10 et amène les auteurs à accepter l'hypothèse nulle, c'est-à-dire à rejeter leur hypothèse : les données collectées ne leur permettent pas de soutenir l'hypothèse d'une vente plus fréquente au moment de l'introduction en Bourse des actions des sociétés Internet comparativement aux sociétés non-Internet. Source : Boisselier P. & Dufour D., « Bulle financière et introduction des sociétés Internet au Nouveau marché », Finance Contrôle Stratégie, 10(1), 2007, p. 67-93. Tests adaptés à 2 échantillons appariés Le test du signe prend son nom du fait qu'il utilise des signes plus et moins à la place de mesures quantitatives. Ce test est très utile lorsque des mesures quantitatives sont, soit impossibles, soit ne peuvent être effectuées. Il est applicable au cas de deux échantillons appariés lorsque le chercheur souhaite montrer que les deux conditions sont différentes. Le test de Wilcoxon. Le test du signe utilise le sens des différences. Si l'on considère le sens et l'amplitude des différences, un test plus puissant peut être utilisé. Le test de Wilcoxon donne ainsi plus de poids aux grandes différences plutôt qu'aux petites diffé- rences. Il s'applique à une variable ordinale mesurée dans deux échantillons appariés. 284 Méthodologie de la recherche 1.3. Les tests non paramétriques dans le cas de k échantillons Tests adaptés aux échantillons indépendants Le test de Kruskal et Wallis est une extension du test de Mann-Whitney à k échantillons indépendants. Il est aussi appelé test des rangs de Kruskall et Wallis. Le test du Chi-deux (déjà présenté à la section 1.1) est aussi employé lorsque l'on teste l'association k variables nominales extraites d'échantillons indépendants. Tests adaptés aux échantillons appariés Le test de McNemar peut être étendu à plus de deux échantillons appariés. Cette extension est appelée test Q de Cochran. Le test Q de Cochran permet de tester l'hypothèse d'une différence de fréquences entre k échantillons appariés. Le test de Friedman est une extension du test de Wilcoxon à k échantillons appariés. Il permet de tester l'hypothèse nulle selon laquelle les k échantillons sont tirés d'une même population. 2. L'analyse de variance univariée (ANOVA) L'analyse de variance, couramment désignée par ANOVA (pour ANalysis OfVAriancé), permet au chercheur de tester l'impact d'une ou plusieurs variables, mesurées sur une échelle nominale, sur une variable mesurée sur une échelle d'intervalle ou de rapport. Outil privilégié du traitement des données d'expérimentation (impact des traitements expérimentaux sur une variable à expliquer), elle peut plus largement être utilisée pour identifier des différences de moyennes entre différents groupes d'observations. La (les) variable(s) explicative(s) mesurée(s) sur une échelle nominale est (sont) appelée(s) facteur(s). Héritée du vocabulaire expérimental, cette terminologie n'a pas de lien avec la notion de facteur précédemment vue dans l'analyse factorielle (voir chapitre 6). 2.1. Vérification des conditions d'application Outre les niveaux de mesure des variables (explicatives nominales et à expliquer métri- que), deux conditions doivent être remplies par les données afin d'effectuer une analyse de variance dans de bonnes conditions. La première est la condition d'homoscédasticité (c'est-à-dire d'homogénéité des varian- ces) entre les groupes définis par les facteurs. Ainsi, l'étude de l'impact d'un facteur (la région par exemple) à k modalités (Europe/Amérique du Nord/Asie) amène à distinguer k groupes (Européens/Nord-Américains/Asiatiques) au sein de l'échantillon, à des fins de comparaison sur la variable à expliquer (la satisfaction au travail par exemple). Il est nécessaire que la variance de la variable à expliquer soit homogène à travers les k grou- pes, sans quoi les résultats peuvent s'en trouver artificiellement affectés1. Plusieurs tests permettent de vérifier le respect de cette condition. Par exemple, SPSS offre la possibilité d'effectuer le test de Levene. Son hypothèse nulle est celle de l'homogénéité des variances. Le résultat est donc favorable lorsque la significativité retournée par le test est supérieure au niveau a fixé par le chercheur (par exemple, a = 0,05). Chapitre 8 - Choisir parmi les méthodes quantitatives explicatives 285 La seconde est la condition de normalité de la variable à expliquer au sein de chaque groupe. Différentes approches (coefficients d'asymétrie et d'aplatissement, test de Kolmogorov-Smirnov pour un échantillon, etc.) permettent de tester le respect de cette condition. Notons que l'analyse de variance (ANOV^) est réputée robuste à la violation de cette hypothèse. 2.2. Décomposition de la variance Les observations contenues dans la base de données présentent une variance globale quant à la variable à expliquer. Si nous revenons à l'exemple précédent, tous les salariés interrogés ne présentent pas le même niveau de satisfaction au travail. L'objectif est de différencier deux sources de cette variance totale : une partie des différences peut être due à la région d'appartenance, mais comme ce facteur n'explique probablement pas tout, une autre partie est due à d'autres facteurs, non contrôlés dans notre exemple. Il y a donc une part de la variance totale que l'on peut qualifier de factorielle (c'est-à-dire expliquée par le facteur), et une autre de résiduelle (c'est-à-dire due au hasard). La variance factorielle, aussi appelée carré moyen factoriel (CMF) est calculée en cumu- lant les carrés des écarts pondérés entre les moyennes des différents groupes et la moyenne de l'échantillon complet (SCEP pour somme des carrés des écarts factoriels), puis en divisant par le degré de liberté correspondant (k - 1, où k est le nombre de groupes, soit le nombre de modalités du facteur). La variance résiduelle, ou carré moyen résiduel (CMR) est, quant à elle, le cumul des carrés des écarts entre chaque observation et la moyenne de son groupe (SCER pour somme des carrés des écarts résiduels), rapporté à son degré de liberté (N- k, où N est la taille de l'échantillon). 2.3. Présentation des résultats et interprétation statistique (test de Fisher) Les résultats du processus de décomposition de la variance et de son exploitation prennent traditionnellement la forme décrite par le tableau 8.2. Tableau 8.2 : Structure du tableau d'analyse de variance à un facteur SCE CM F Significativité Degré de liberté CMF Valeurs [0;1] Facteur SCEF k-1 CMF/CMR Résidu SCER N-k CMR Total SCET /V-1 Le rapport entre la variance factorielle et la variance résiduelle (CMp/CMR) suit une distribution de Fisher. Celle-ci est comparée à une valeur théorique de cette distribution pour conclure à l'existence ou non d'un effet significatif du facteur. Plus simplement, les logiciels retournent une significativité associée au test. Lorsque celle-ci est inférieure au seuil a fixé par le chercheur (par exemple, a =0,05) l'hypothèse d'absence d'effet du 286 Méthodologie de la recherche facteur peut être rejetée. Dans le cas contraire, le chercheur doit conclure à l'absence d'effet du facteur étudié sur la variable à expliquer. 2.4. Interprétation pratique Si le test de Fisher amène à conclure à l'existence d'un effet significatif du facteur, deux questions peuvent être posées pour parfaire l'interprétation de l'analyse et lui donner une portée pratique. La première est celle de la signification pratique : le test indique un effet du facteur, mais quelle est l'importance des facteurs manipulés dans les variations de la variable à expliquer ? L'effet, pour significatif qu'il soit, est-il majeur, important ou marginal ? L'estimateur le plus simple de l'importance de l'effet est r/2, qui est le rapport entre la somme des carrés des écarts factoriels et la somme des carrés des écarts totaux (SCEF/SCET). Néanmoins, il est biaisé par le nombre de modalités du facteur étudié {k) et mieux vaut lui préférer ai2 (oméga carré) qui ne l'est pas : 2 SCEF -(dlFxCMR) SCET + CMR Ces deux indicateurs varient entre 0 et 1 et peuvent être compris comme la proportion de la variance totale expliquée par le facteur : un û)2 de 0,57 signifie, par exemple, que le facteur étudié explique les variations de la variable expliquée à hauteur de 57 % (43 % restants donc inexpliqués). La seconde question est celle des effets spécifiques des différentes modalités du facteur. Si celui-ci comprend deux modalités (k = 2) et que l'analyse de variance indique l'existence d'un effet significatif, l'interprétation est relativement directe. En effet, si ce facteur est le genre et la variable étudiée une intention d'achat, le résultat signifie que les hommes et l'es- fërm-rras' rfe / 'échantillon présentent une différence significative en matière d'intention d'achat et un examen direct des moyennes de ces deux groupes permet de savoir quel genre a la plus élevée. En revanche, si le facteur a plus de deux modalités (k > 2), l'existence d'un effet ne signifie pas nécessairement que tous les groupes présentent des différences significatives deux-à-deux. Pour affiner l'interprétation, il est donc nécessaire d'effectuer des tests de comparaisons multiples de moyennes qui permettent d'identifier où sont les réelles différences. Parmi ces tests, citons ceux de Bonferroni et de Tuckey2. 2.5. L'ANOVA à plusieurs facteurs Les problèmes étudiés en gestion sont le plus souvent complexes et ne se satisfont que peu de modèles explicatifs à un facteur. Afin d'améliorer l'explication et la signification pratique obtenue, il est donc fréquent d'étudier l'effet simultané de plusieurs facteurs. Par exemple, la satisfaction au travail peut, comme nous l'avons vu, être étudiée sous l'angle de la. région d'appartenance, mais aussi de la catégorie professionnelle (ouvrier/ employé/cadre). La démarche, similaire à la précédente, conduit alors à calculer une variance par facteur, de faire un test spécifique à chaque facteur ainsi que d'en évaluer la signification pratique. Par ailleurs, les différents facteurs étudiés peuvent interagir. C'est le cas lorsque les effets d'un facteur dépendent des modalités d'un autre facteur. Il se peut, en effet, que la Chapitre 8 - Choisir parmi les méthodes quantitatives explicatives 287 satisfaction des différentes catégories professionnelles varie en fonction de la région. L'analyse de variance à plusieurs facteurs permet de modéliser et de tester ce genre d'interaction. En l'absence d'interaction significative, seuls les éventuels effets directs des facteurs sont à interpréter. En revanche, si un effet d'interaction existe, il prend une importance tout à fait particulière dans la compréhension des phénomènes observés puisqu'il devient moins intéressant d'interpréter des effets directs des facteurs, fussent-ils significatifs, dès lors qu'on a montré qu'ils étaient contingents. L'effet d'interaction fait, lui aussi, l'objet d'un calcul de signification pratique. L'encadré 8.2 présente un exemple de mise en œuvre de l'ANOVA à plusieurs facteurs. Exemple d'analyse de variance à plusieurs facteurs Maurcr étudie la performance financière des entreprises diversifiées. Deux facteurs explicatifs sont mis à l'étude dans son article : le type de diversification (liée ou non.'* i 3 liée) el le contexte boursier (baissier ou haussier). Les données issues d'un échantillon de 70 entreprises sont réunies pour lester différentes hypothèses, dont la principale eM l'absence d'effet d'interaction entre les facteurs explicatifs sur la performance finan cicre : l'effet du type de diversification sur la performance est indépendant du contexte boursier. La mise en évidence d'un effet significatif de l'interaction sur la performance (£-,,128) = 2,80, p < 0,05) conduit l'auteur à rejeter cette hypothèse. Llne série suppk mentaire d'analyses de variance et de tests complémentaires lui permet d'affiner sa conclusion : le type de diversification n'a pas d'effet sur la performance dans un contexte de marché haussier, alors que la diversification non liée permet une meilleur, c performance dans un contexte baissier. Source : Maurer F., « L'influence des fluctuations boursières sur la performance financière de la firme diversifiée », Finance Contrôle Stratégie, 2 (4), 1999, p. 105-134 *-. 3. L'analyse de variance multivariée (MANOVA) L'analyse de variance multivariée (MANOVA pour Multivariate ANalysis Of Variance) est une extension de l'ANOVA qui permet, comme son nom l'indique, de traiter simultané- ment plusieurs variables à expliquer. Celles-ci sont métriques et le(s) facteur(s) explicatifs sont nominaux. Ainsi, les groupes formés par les modalités du(des) facteur(s) sont comparés non plus sur une moyenne, mais sur un ensemble de moyennes (une par variable à expliquer) qui forment un vecteur. L'analyse de variance multivariée n'a d'intérêt que si les variables à expliquer sont un minimum liées (r > 0,33), sans quoi rien ne justifie de les étudier simultanément et il est préférable d'effectuer une série d'analyses univariées. 3.1. Vérification des conditions d'application Les conditions d'application sont pour partie une transposition de celles de l'analyse de variance (ANOVA) au plan multivarié. La première est la condition d'homoscédasticité. L'analyse de variance multivariée (MANOVA) portant sur un ensemble de variables à 288 Méthodologie de la recherche expliquer, il convient de vérifier Fhorrîogénéité des matrices de variance-covariance de celles-ci à travers les groupes. Le test M de Box permet de tester le respect de cette condi- tion. La significativité qui lui est associée permet d'accepter (< a, a= 0,05 par exemple) ou de rejeter (> a) l'hypothèse d'homoscédasticité. Il est proposé par la plupart des logiciels de traitement. La deuxième est la condition de normalité multivariée. Plusieurs méthodes sont possibles pour la vérifier selon le logiciel utilisé (méthode de Van der Waerden sous SPSS, coeffi- cient de Mardia sous Statistica, etc.). L'analyse de variance multivariée est réputée robuste à la violation de cette hypothèse lorsque les groupes ont des effectifs semblables4. À défaut de tester la condition de normalité multivariée, il est possible de vérifier la normalité de chaque variable à expliquer au sein de chaque groupe. Même si cela ne garantit pas la normalité multivariée, le respect de cette condition, plus facile à tester, fait que toute éventuelle violation de l'hypothèse de normalité multivariée devrait rester sans conséquence5. La troisième est la condition de linéarité entre les variables à expliquer. Un examen graphique, par la construction d'un nuage de points par exemple, permet d'apprécier le respect ou non de cette condition. Enfin, les variables à expliquer ne doivent pas présenter une trop forte multicolinéarité. Le plus simple est de vérifier dans la matrice de corrélation qu'aucune paire de variable n'est corrélée au-delà de 0,7. Il est également possible de calculer le VIF (Variance Inflation Factor) de chaque variable à expliquer (voir la partie de ce chapitre consacrée à la régression linéaire). La présence d'une forte multicolinéarité indique que certaines variables sont redondantes et il convient d'éliminer les variables incriminées par suppression ou agrégation (construction d'une variable composite). 3.2. Interprétation statistique La décomposition de la variance se fait au plan matriciel selon un principe analogue à celui de l'ANOVA. Plusieurs tests permettent de conclure à l'existence de différences entre les vecteurs de moyennes des groupes : trace de Pillai, lambda de Wilks6, etc. Là encore, c'est la significativité qui leur est associée qui permet de rejeter (< a) ou d'accepter (> a) l'hypothèse d'égalité des vecteurs de moyennes des groupes. Dans le cas où plusieurs facteurs sont étudiés, un test est réalisé pour chacun d'entre eux, ainsi que pour leurs interactions. 3.3. Interprétation pratique De façon similaire à l'ANOVA, plusieurs tests permettent de comparer les groupes deux- à-deux afin de repérer précisément les différences entre groupes, le cas échéant : Scheffé, HSD de Tuckey7, etc. En ce qui concerne l'importance de l'effet, ou le pourcentage de variance expliquée, elle peut être estimée par le calcul de Tfa:usté (êta carré ajusté) : 77«;Wé = l-[ l-(l-A)]- -----------N~1 L N- mm {ki-l)-l ie[Um] Chapitre 8 - Choisir parmi les méthodes quantitatives explicatives où A est le lambda de W3ks, m est le nombre de facteurs, k{ est le nombre de modalités du facteur i et Nie nombre d'observations. Variant entre 0 et 1, il s'interprète comme (xf- précédemment vu dans le cadre de l'analyse de variance. Enfin, si l'analyse de variance multivariée (MANOVA) met en lumière des effets sur un ensemble de variables à expliquer, l'interprétation peut être complétée par une série d'analyses univariées (ANOVA) pour connaître les effets spécifiques des facteurs et de leurs interactions sur chaque variable à expliquer. L'encadré 8.3 présente un exemple d'analyse de variance multivariée. Exemple d'analyse de variance multivariée Dans une recherche portant sur les effets d'une promotion multimécanismes, Pech- peyrou, Parguel, Mimouni et Desmet recourent à l'analyse de variance multivariée pour tester l'effet de différentes combinaisons de techniques promotionnelles sur, à la fois, la valeur utilitaire et la valeur hédonique de l'offre. Dans le cadre d'une étude portant sur 210 acheteurs réguliers de shampooing en grandes surfaces, l'utilisation d'une, deux ou trois techniques, parmi un avoir crédité sur une carte de fidélité, un bon de réduction immédiate et un pourcentage de produit gratuit, se révèle avoir un effet globalement significatif sur la perception de la valeur (utilitaire et hédonique) de l'offre promotionnelle. Une série d'analyses univariées (ANOVA) permet de constater que cet effet porte sur chacune des composantes de la valeur perçue (valeur utilitaire et valeur hédonique). Le tableau 8.3 présente ces résultats. Tableau 8.3 : Résultats de la MANOVA et des ANOVA subséquentes de Pechpeyrou et al. Lambda deWilks F P MANOVA 0,944 2,98 0,019 ANOVA 5,59 0,004 - Valeur utilitaire 3,03 0,050 - Valeur hédonique Source : Pechpeyrou (de) P., Parguel B„ Mimouni A., Desmet P., « Valeur et sincérité perçues d'une F- promotion multi-mécanismes », Recherche et Applications en Marketing, 21 (4), 2006, p. 25-39. 4. La régression linéaire La régression linéaire a pour objet de modéliser les relations entre une variable à expli- quer mesurée sur une échelle d'intervalle ou de rapport et une (régression simple) ou plusieurs (régression multiple) variables mesurées sur une échelle d'intervalle ou de rapport, et explicatives sous la forme d'une fonction linéaire du type8 : y=b0 + b1x1+...+ bmx„+e 290 Méthodologie de la recherche où y est la variable à expliquer, b0 est une constante, x ï... x m sont les m variables explica- tives, bj... bm sont leurs coefficients de régression respectifs, et e est un terme d'erreur rendant compte des différences entre les valeurs de y prédites par le modèle et les valeurs observées (résidus). On dit alors que y est régressée sur les variables x. Dans le cas d'une régression simple, il est aisé de représenter le modèle graphiquement (figure 8.1). «i!*.'.'-:i :*"i*î* y=bo+bixi >-xi Figure 8.1 - Illustration d'un modèle de régression simple. Dans la figure 8.1, les points représentent les projections des observations dans le plan défini par x1 et y. L'analyse de régression linéaire cherche la fonction, qui prend la forme d'une droite en régression simples, s'ajustant le mieux aux données. Le critère le plus courant est celui de la minimisation de la somme des carrés des écarts (e,) entre les valeurs observées (y,) et prédites {y ;) pour chaque observation i (méthode dite « des moin- dres carrés »). Il en résulte une droite dont l'ordonnée à l'origine est la constante du modèle (b0, valeur théorique de y pour xt = 0) et la pente est le coefficient de régression dey surx, (bj). La qualité du modèle dépend de l'importance des écarts qui subsistent entre valeurs prédites et valeurs observées. La régression linéaire peut servir, grâce à des procédures spécifiques, à tester des modèles plus complexes. Ces modèles peuvent intégrer des phénomènes de médiation (voir enca- dré 8.5) ou de modération (voir encadrés 8.6 et 8.7). 4.1. Vérification des conditions d'utilisation La première vérification porte sur la condition de linéarité des relations entre la variable à expliquer et ses variables explicatives. La régression linéaire cherchant à modéliser des relations linéaires, elle n'est, en effet, pas adaptée à d'autres formes de relation. Il convient donc de vérifier que la méthode est adaptée à la situation. Le plus simple Chapitre 8 - Choisir parmi les méthodes quantitatives explicatives 291 consiste à examiner les diagrammes de dispersion (nuages de points) entre y et chacun des x. Un nuage « allongé » et « droit » se prête à la modélisation d'une relation linéaire. Plus formellement, il est possible de s'intéresser à la distribution des erreurs des régression de y sur chacun des x. Dans le cas de relations linéaires, ces erreurs doivent être distribuées normalement. Après une transformation (« studentisation ») qui consiste à diviser chaque erreur (e;) par l'écart-type des erreurs, 95 % d'entre elles doivent prendre des valeurs comprises entre -2 et + 2. Par ailleurs, dans le cas de la régression multiple, il convient de s'assurer que les variables explicatives ne présentent pas une trop forte multicolinéarité. C'est le cas lorsque certaines variables sont trop fortement corrélées aux autres et sont, de ce fait, redondantes. Des corrélations entre variables explicatives supérieures à 0,7 font craindre l'existence de multicolinéarité. De façon plus formelle, il est possible de calculer le VIF ( Variance Infla- tion Factor) de chaque variable explicative pour s'assurer de son intérêt propre dans le modèle. Pour cela, on régresse successivement chaque variable explicative sur les autres variables explicatives. Le coefficient de détermination (R2, voir plus loin) est alors utilisé de la façon suivante pour calculer le VIF de chaque variable explicative : VIF-—^—z l-R2 Une règle empirique veut que les valeurs de VIF supérieures à 10 indiquent l'existence d'une forte multicolinéarité d'une variable explicative avec les autres9. Trois autres conditions portant sur les erreurs, ou résidus, doivent, en outre, être remplies. Les erreurs de chacune de ces régressions doivent tout d'abord remplir une condition d'homoscédasticité, sans quoi les poids des variables x (coefficients de régression) dans l'explication de y peuvent s'en trouver artificiellement affectés. Il est possible d'effectuer une analyse du graphique des résidus10 ou d'effectuer un test, comme le test de Levene déjà présenté dans le cadre de l'analyse de variance. Ensuite, les résidus (e,-) doivent être indépendants les uns des autres. La violation de cette condition affecte l'estimation des intervalles de confiance des coefficients de régression et donc les tests de signiflcativité qui leur sont associés. Le test de Durbin-Watson fournit une statistique dont la valeur doit approcher 2 pour conclure à l'indépendance des résidus. Enfin, les résidus doivent également présenter des distributions normales. Les techniques déjà évoquées pour la vérification des conditions d'utilisation de l'analyse de variance (examens graphiques, coefficients d'asymétrie et d'aplatissement, test de Kolmogorov- Smirnov) peuvent ici être mises en œuvre. 4.2. Interprétation statistique du modèle Un premier résultat général repose sur l'analyse de variance (ANOVA). Ici, la part de la variance de y expliquée par le modèle (CMré ion) est mise en rapport avec la variance résiduelle (CMrésidu) pour effectuer le test de Fisher. L'hypothèse nulle est que les effets modélisés sont négligeables. La signiflcativité associée au test doit être inférieure au 292 Méthodologie de la recherche seuil a pour conclure à l'existence d'au moins une variable explicative exerçant un effet significatif sur y. 4.3. Interprétation statistique des coefficients L'analyse de régression fournit également une estimation de l'effet de chaque variable explicative xt à travers son coefficient de régression. Afin de savoir si celui-ci est significati- vement non nul, il fait l'objet d'un test de Student. L'hypothèse nulle est que le coefficient est non différent de 0 et la significativité doit être inférieure à a pour conclure à l'existence d'un effet de la variable x{ correspondante. Le cas échéant, le signe du coefficient donne le sens de la relation linéaire entre x{ et y : un coefficient positif indique une relation croissante (x; et y varient dans le même sens), et un coefficient négatif une relation décroissante (x, et y varient à l'opposé l'une de l'autre). Les variables dont l'effet se révèle non significatif peuvent être ôtées du modèle et celui-ci à nouveau estimé. Il sera ainsi plus parcimonieux, tout en préservant son pouvoir prédictif global. Si plusieurs variables explicatives ont un effet jugé significatif, il peut être intéressant de connaître leurs impacts respectifs : y a-t-il des variables xï qui exercent plus d'influence que d'autres sur y. Plusieurs approches peuvent être utilisées pour comparer ces effets : comparaison des coefficients de régression standardisés (c'est-à-dire calculés à partir des données standardisées), comparaison des intervalles de confiance des coefficients, tests Z après transformation de Fisher, etc. 4.4. Interprétation pratique Une fois montré l'intérêt du modèle par l'examen global et celui des coefficients de régression, il convient d'apprécier sa signification pratique, à savoir le pourcentage de variance de y expliqué par les x-v Dans le cas de la régression linéaire, c'est le coefficient de détermination (R2), ou mieux encore sa version ajustée (R2ajusté) qui fournit cette information. Dans l'esprit, le coefficient R2 de la régression est équivalent au coefficient rf de l'ANOVA et se calcule de la façon suivante : QI __ i~Jy~JJ-' régression àLb male De ce fait, il souffre des mêmes biais que le coefficient rf et peut être corrigé comme suit : (1-R2)(N-1) ^-ajusté- * (N-m-1) où N est la taille de l'échantillon et m le nombre de variables explicatives dans le modèle. L'encadré 8.4 présente un exemple de mise en œuvre d'une régression linéaire. Chapitre 8 - Choisir parmi les méthodes quantitatives explicatives 293 Exemple de mise en œuvre d'un régression linéaire Cazavan-Jeny et Jeanjean, dans le but de juger de la pertinence de l'inscription à l'actif des sociétés de leurs dépenses en recherche et développement, estiment plusieurs modèles alternatifs de régression linéaire destinés à expliquer le cours boursier des entreprises. Le modèle de base régresse le prix du titre (P) sur le bénéfice par action (HPA) et la valeur comptable des capitaux propres par actions ( VCPA), mais aussi à des fins de contrôle sur l'année d'obtention des données (AN) et le secteur d'activité (HT). Le modèle de régression a donc la forme suivante : P - b,} 4 btBPA + b2VCPA + b?HT i b4AN +- c Sur un échantillon de 247 sociétés cotées françaises et pour la période 1999-2000, les variables de contrôle n'ont pas d'effet sur la variable expliquée, et seuls le bénéfice et les capitaux propres par actions ont un effet statistiquement significatif. Le coefficient de détermination ajusté fait état de 32 % de variance expliquée (voir tableau 8.4). Tableau 8.4 : Extrait des résultats des régressions linéaires menées par Cazavan-Jeny & Jeanjean (2005) 3 Variable explicative (/') Coefficient de régression (o,) Statistique t Signification Constante 18,983 1,83 ns BPA 6,552 4,32 ** VCPA 0,463 2,16 * AN =1999 11,887 1,14 ns AN = 2000 9,810 0,92 ns HT 2,820 0,46 ns " ns : non significatif (p > 0,05) ; * :p < 0,05 ; ** :p < 0,01. Réajusté = 0,32 Source : Cazavan-Jeny A., Jeanjean T., « Pertinence de l'inscription à l'actif des frais de R& D: une étude empirique », Comptabilité, Contrôle Audit, 11 (1 ), 2005, p. 5-21. Recherche de médiation Il existe une médiation lorsque l'effet d'une variable explicative (X) sur une variable à expliquer (Y) est, au moins partiellement, indirect et passe par une troisième variable, dite variable médiatrice (Me). Un tel phénomène peut être représenté de la façon suivante (ligure 8.2). +r Figure 8.2 - Illustration d'un phénomène de médiation. 294 Méthodologie de la recherche Vn tel modèle ne pouvant pas être traité directement en régression, il convient m d'emprunter une procédure séquentielle (Baron et Kcnny, 1986). Étape 1. Un premier modèle dans lequel Me est régressée sur X est estimé et doil mettre en lumière l'existence d'un effet significatif. Notons ce coefficient a. Étape 2. Dans un deuxième modèle, Y est régressée sur X. I.e coefficient de régression peut être ou non significatif". Notons le c. r Étape 3. Dans un troisième et dernier modèle, Y est régressée à la fois sur X et Me. Notons /; le coefficient de régression de Me et c' celui de X. Si b est significatif, il est possible de conclure au statut médiateur de Me dans la relation X- Y. Si, en outre, c' n'est pas significatif, il s'agit d'une médiation complète (partielle s'il est significatif), c'est-à-dire que la totalité de l'effet de X sur Y est relayée par Me. En présence d'un effet médiateur, complet ou partiel, l'effet indirect âcX sur Y à travers Me peut être estimé par le produit de a et b, qui avoisine par ailleurs la différence entre c et c\ Source: Baron R.M., Kenny D.A., «The Moderator-Mediator Variable Distinction in Social Psychological Research: Conceptual, Stratégie and Statistical Considérations », Journal of Personality and Social Psychology, 51 (6), 1986, p. 1173-1182. Recherche de modération L'effet d'une variable X sur une variable F est qualifié de modéré lorsqu'une troisième variable, appelée modérateur (Mo) affecte la direction, l'existence ou la force de la rela- tion entre X et Y. Cette variable modératrice peut être nominale (par exemple, le genre du répondant affecte la relation entre satisfaction et intention de renouveler l'achat) ou US' métrique (par exemple, le revenu, mesuré de façon continue, affecte cette même relation). À ces deux situations correspondent deux stratégies de traitement. Dans le premier cas, il est possible de mener une analyse multigroupes, c'est-à-dire de diviser l'échantillon en fonction des modalités de Mo, d'estimer le modèle de régression de Y sur X au sein de chaque groupe, puis de comparer les paramètres issus des différents groupes grâce au test de Chow. Si une différence significative existe entre- deux modèles, cela révèle l'existence d'un effet modérateur. Dans le second, un modèle de régression modérée, c'est-à-dire contenant le modérateur Mo et un terme d'interaction entre X et Mo-, peut être estimé : y=bQ+blx+ b2 (Mo xx)+b3 Mo r L'hypothèse d'une modération est supportée si le terme d'interaction a un coefficient de régression (ici b2) significatif. Sources : Chow G.C., « Tests of Equality between Sets of Coefficients in Two Linear Régressions », Economet- rica, 28 (3), 1960, p. 591-605. Pour une présentation plus détaillée de la mise en œuvre des modèles de régression modérées, voir IrwinJ.R., McClelland G.H., «Misleading Heuristics and Moderated Multiple Régression Models», Journal of Marketing Research, 38 (1), 2001, p. 100-109, Chumpitaz CaceresR., Vanhamme J, « Les Processus modérateurs et médiateurs : distinction conceptuelle, aspects analytiques et illustrations », Recherche et Applications en Marketing, 18 (2), 2003, p. 67-100. Chapitre 8 - Choisir parmi les méthodes quantitatives explicatives 295 Exemple de recherche de modération par régression linéaire Meyssonier et Roger s'intéressent aux facteurs susceptibles d'influencer la relation souvent supposée entre la satisfaction au travail et l'intention de quitter ce travail. Parmi les variables susceptibles de modérer cette relation, ils étudient le cocooning organisationnel, défini comme l'attention que porte l'entreprise à ses cadres et le soutien qu'elle manifeste pour leur bien-être, ainsi que les opportunités d'emploi dont m bénéficient ces mêmes cadres. Sur un échantillon de 481 ingénieurs, les auteurs esti- ment un modèle de régression linéaire dans lequel l'intention de quitter (INT) est expliquée par la satisfaction (en termes d'intérêt, SATlxl, et de supervision, SA'1\U]1) en interaction avec le cocooning (COC) et les opportunités (OPP). Le modèle a donc la forme suivante : /,VT- b() + b,SA7'm. + b2S,47M -,, i- b^SATIS,-x COC) + bA(SATLVIxOPP) i b- (SATSUP x COC) + b6(SATsi;,, x OPP) + b7COC + \OPP + e Le tableau 8.5 présente les résultats de leur estimation. i Tableau 8.5 : Extrait des résultats de la recherche de modération par régression linéaire chez Meyssonier et Roger (2006) Variable explicative (i) Coefficient de régression (b,) Statistique f Signification Constante 0,039 0,912 0,362 SAT|NT -0,303 -6,828 0,000 SATSUP -0,244 -5,488 0,000 SATINTxCOC -0,004 -0,104 0,917 SATINTxOPP 0,013 0,338 0,735 SATSUP x COC -0,119 -3,164 0,002 SATbup x OPP 0,084 2,117 0,035 COC -0,208 -4,447 0,000 OPP 0,210 5,104 0,000 R1 ajusté = 0,272 L'examen des coefficients de régression, et des tests associés, des termes d'interaction montre que, lorsqu'il s'agit de satisfaction en termes d'intérêt pour le travail, il n'y a pas dans l'échantillon de modération de son effet sur l'intention de quitter, que ce soit du fait du cocooning organisationnel ou des opportunités externes. Par ailleurs, l'effet simple de ce type de satisfaction est significatif et négatif, ce qui permet de conclure que plus l'individu est satisfait de son travail en termes d'intérêt, moins il a l'intention de le quitter et ce, indépendamment de l'attention que lui porte son entreprise (cocoo- ning) et des opportunités qu'il pourrait avoir à l'extérieur. Méthodologie de ta recherche Un revanche, I I > IM | U Yu À ) H Y22 X,2 ",2 *^2 y3I *22 «i^V 11! 122 fe °22 h» \ & *32 °32 *

Use Quizgecko on...
Browser
Browser