Statistiques pour l’économie et la gestion - 5e édition - PDF
Document Details
Uploaded by BuoyantComputerArt
HEC Lausanne
2015
Anderson Sweeney Williams Camm Cochran
Tags
Summary
This is a textbook on statistics for economics and management, 5th edition. It covers various statistical methods and their applications in business and economics. The book includes examples, exercises, and supplementary resources.
Full Transcript
Statistiques pour l’économie et la gestion Anderson Sweeney Williams Camm Cochran Traduction de la 7e édition américaine par Claire Borsenberger 5e édition σ=5 σ = 10 Plus de 300 exercices et exemples ! Ressources complémentaires sur www.deboecksuperieur.com/site/193089 : Fichiers Excel Fichiers Min...
Statistiques pour l’économie et la gestion Anderson Sweeney Williams Camm Cochran Traduction de la 7e édition américaine par Claire Borsenberger 5e édition σ=5 σ = 10 Plus de 300 exercices et exemples ! Ressources complémentaires sur www.deboecksuperieur.com/site/193089 : Fichiers Excel Fichiers Minitab Réservés aux enseignants : PowerPoint Test Bank Manuel des solutions Renseignements sur www.deboecksuperieur.com Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Statistiques pour l’économie et la gestion Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. O U V E R T U R E S É C O N O M I Q U E S Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Statistiques pour l’économie et la gestion Anderson Sweeney Williams Camm Cochran Traduction de la 7e édition américaine par Claire Borsenberger 5e édition ÉCONOMIQUES OUVERTURES Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Ouvrage original : Essentials of Statistics for Business and Economics, 7th edition, by David R. Anderson, Dennis J. Sweeney, Thomas A. Williams, Jeffrey D. Camm, James J. Cochran © 2015, 2011 Cengage Learning All rights reserved Pour toute information sur notre fonds et les nouveautés dans votre domaine de spécialisation, consultez notre site web : www.deboecksuperieur.com e 5 édition © De Boeck Supérieur s.a., 2015 Fond Jean Pâques 4, B-1348 Louvain-La-Neuve Pour la traduction en langue française Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent ouvrage, de le stocker dans une banque de données ou de le communiquer au public, sous quelque forme et de quelque manière que ce soit. Dépôt légal : Bibliothèque nationale, Paris : septembre 2015 Bibliothèque royale de Belgique, Bruxelles : 2015/0074/154 ISSN 2030-501X ISBN 978-2-8041-9308-9 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. SOMMAIRE Avant-propos...............................................................................................VII À propos des auteurs..............................................................................XV CHAPITRE 1 Données et statistiques...................................................... 1 CHAPITRE 2 Statistiques descriptives : présentations sous forme de tableaux et de graphiques....................... 43 CHAPITRE 3 Statistiques descriptives : Méthodes numériques................................................... 137 CHAPITRE 4 Introduction à la théorie probabiliste.................... 231 CHAPITRE 5 Distributions de probabilité discrètes.................... 289 CHAPITRE 6 Distributions de probabilité continues.................. 341 CHAPITRE 7 Échantillonnage et distributions d’échantillonnage............................................................ 383 CHAPITRE 8 Estimation par intervalle.............................................. 435 CHAPITRE 9 Test d’hypothèses............................................................. 487 CHAPITRE 10 Comparaisons de moyennes, procédure expérimentale et analyse de la variance............ 549 CHAPITRE 11 Comparaisons de proportions et test d’indépendance................................................................ 621 CHAPITRE 12 Régression linéaire simple.......................................... 669 CHAPITRE 13 Régression multiple......................................................... 755 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. VI STATISTIQUES POUR L’ÉCONOMIE ET LA GESTION Annexes....................................................................................................... 817 ANNEXE A Références et bibliographie............................................... 819 ANNEXE B Tables............................................................................................ 821 ANNEXE C Notation des sommes........................................................... 847 ANNEXE D Solutions des exercices d’auto-évaluation et des exercices numérotés par un chiffre pair............ 849 ANNEXE E Microsoft Excel 2013 et les outils d’analyse statistiques.................................................................................. 885 ANNEXE F Calculer les valeurs p en utilisant Minitab et Excel......................................................................................... 899 Index des notions................................................................................... 903 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. AVANT-PROPOS Cet ouvrage est la 7e édition de la version américaine de Statistiques pour l’économie et la gestion. Dans cette édition, nous accueillons deux éminents universitaires dans notre équipe d’auteurs : Jeffrey D. Camm de l’Université de Cincinnati et James J. Cochran de l’Université Louisiana Tech. Jeff et Jim sont des enseignants, des chercheurs et des praticiens talentueux dans le domaine des statistiques et de l’analyse commerciale. Jim est membre de l’Association américaine de statistiques. Vous trouverez davantage de détail sur leur parcours dans la section « Auteur » qui suit cette préface. Nous pensons que l’inclusion de Jeff et de Jim en tant que co-auteurs améliorera la qualité de l’ouvrage. L’objectif de Statistiques pour l’économie et la gestion est de donner aux étudiants, notamment ceux des filières économiques, commerciales et de gestion, une introduction conceptuelle aux statistiques et à leurs applications. Cet ouvrage est tourné vers la pratique et ne requiert aucun outil mathématique autre que la connaissance de l’algèbre. Les applications en matière d’analyse des données et de méthodologie statistique font partie intégrante de l’organisation et de la présentation de l’ouvrage. Chaque technique est présentée dans un contexte empirique, les résultats statistiques fournissant des indications pour prendre des décisions et résoudre des problèmes. Bien que l’ouvrage soit orienté vers la pratique, nous avons pris soin de fournir des développements méthodologiques solides et d’utiliser les notations usuelles. Par conséquent, cet ouvrage constitue une bonne base préparatoire à l’étude de sujets statistiques plus avancés. Une bibliographie est fournie en annexe, dans le but de permettre aux étudiants d’approfondir leurs connaissances dans certains domaines. L’ouvrage familiarise l’étudiant à l’utilisation des logiciels statistiques Minitab 16 et Microsoft® Office Excel 2013 et met en avant le rôle des logiciels informatiques dans l’application de l’analyse statistique. Minitab est l’un des logiciels statistiques les plus utilisés à la fois à des fins pédagogiques et professionnelles. Excel n’est pas un logiciel statistique mais sa grande disponibilité et son usage répandu rendent nécessaire la connaissance par les étudiants des possibilités statistiques de ce logiciel. Les procédures Minitab et Excel sont fournies en annexe des chapitres ; les enseignants peuvent ainsi mettre plus ou moins l’accent sur l’utilisation des logiciels informatiques dans leur cours. StatTools, une extension commerciale d’Excel développée par la société Palisade, étend Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. VIII STATISTIQUES POUR L’ÉCONOMIE ET LA GESTION l’éventail des options statistiques pour les utilisateurs d’Excel. Nous indiquons comment télécharger et installer StatTools dans une annexe du chapitre 1 et la plupart des chapitres incluent une annexe décrivant les étapes pour mettre en œuvre une procédure statistique en utilisant StatTools. L’utilisation de StatTools reste une option, de sorte que les enseignants qui ne souhaitent utiliser que les outils standards d’Excel, le peuvent. LES MODIFICATIONS DE LA SEPTIÈME ÉDITION AMÉRICAINE Nous apprécions l’accueil favorable qu’ont reçu les précédentes éditions de l’ouvrage. En conséquence, nous avons conservé le mode de présentation et la lisibilité des précédentes éditions. Nous avons apporté de nombreux changements à travers l’ensemble de l’ouvrage pour améliorer son caractère pédagogique. Les principaux changements de cette nouvelle édition sont résumés ici. Révisions du contenu Statistiques descriptives – Chapitres 2 et 3. Nous avons substantiellement révisé ces chapitres en y incorporant de nouveaux concepts en matière de visualisation des données, de bonnes pratiques et bien plus encore. Le chapitre 2 a été réorganisé pour inclure les nouveaux outils que sont les diagrammes en barres empilés et côte-à-côte et une nouvelle section sur la visualisation des données et les bonnes pratiques pour créer des graphiques pertinents a été ajoutée. Le chapitre 3 inclut désormais le concept de moyenne géométrique dans la section sur les mesures de tendance centrale. La moyenne géométrique a de nombreuses applications dans le calcul des taux de croissance des actifs financiers, des taux de pourcentage annuels, etc. Le chapitre 3 inclut également une nouvelle section sur les tableaux de bord de données et sur la manière dont les résumés statistiques peuvent être incorporés pour accroître leur pertinence et leur effectivité. Comparaisons de proportions et test d’indépendance – Chapitre 11. Ce chapitre a été profondément révisé. Nous avons remplacé la section sur les tests d’ajustement par une nouvelle section sur le test d’égalité des proportions d’au moins trois populations. Cette section présente la procédure pour effectuer des tests de comparaison multiples entre toutes les paires de proportions de population. La section sur le test d’indépendance a été réécrite pour clarifier le fait que le test concerne l’indépendance de deux variables qualitatives. Les annexes décrivant pas-à-pas les instructions pour utiliser Minitab, Excel et StatTools ont été revues. De nouveaux problèmes. Nous avons ajouté sept nouveaux problèmes dans cette édition ; le nombre total de problèmes s’élève désormais à 25. Trois nouveaux problèmes relatifs aux statistiques descriptives ont été ajoutés dans les chapitres 2 et 3. Quatre nouveaux problèmes de régression apparaissent dans les chapitres 12 et 13. Ces problèmes offrent aux étudiants l’opportunité d’analyser des bases de données plus importantes et de préparer des rapports sur la base des résultats de leur analyse. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Avant-propos IX De nouveaux « Statistiques Appliquées ». Chaque chapitre débute par un article intitulé « Statistiques appliquées » qui décrit une application concrète de la méthodologie statistique qui sera couverte dans le chapitre. L’article Statistiques Appliquées du chapitre 2 est nouveau ; il décrit l’utilisation des tableaux de bord et la visualisation de données au zoo de Cincinnati. Nous avons également ajouté un nouveau Statistiques Appliquées au chapitre 4, décrivant comment une équipe de la NASA a utilisé la théorie probabiliste pour venir au secours de 33 mineurs chiliens pris au piège dans une cavité. De nouveaux exemples et exercices basés sur des données réelles. Nous poursuivons nos efforts pour mettre à jour nos exemples et exercices avec des données réelles actualisées issues de sources d’information statistique de référence. Dans cette édition, nous avons ajouté environ 200 nouveaux exemples et exercices basés sur des données réelles et des sources de référence. En utilisant des données issues de sources également utilisées par le Wall Street Journal, USA Today, Barron’s et d’autres, nous basons nos explications et créons des exercices à partir d’études réelles, démontrant ainsi l’importance des statistiques en économie. Nous pensons que l’utilisation de données réelles suscite un plus vif intérêt de la part des étudiants vis-à-vis des statistiques et leur permet de faire le lien entre la méthodologie et son application. La septième édition contient plus de 300 exercices et exemples basés sur des données réelles. CARACTÉRISTIQUES ET PÉDAGOGIE Nous avons conservé la plupart des caractéristiques des précédentes éditions. Les plus importantes pour les étudiants sont mentionnées ci-dessous. Exercices de méthode et exercices appliqués Les exercices à la fin de chaque section sont de deux types : les exercices de « Méthode » et les « Applications ». Les exercices de méthode permettent aux étudiants d’utiliser les formules et de faire les calculs qui s’imposent. Les exercices d’application permettent aux étudiants d’adapter les outils présentés dans le chapitre à des situations réelles. Ainsi, les étudiants se concentrent sur les principes fondamentaux puis se familiarisent avec les subtilités des applications statistiques et de leur interprétation. Exercices d’auto-évaluation Certains exercices, dits d’auto-évaluation, sont signalés par le logo dans la marge. Les solutions détaillées de ces exercices sont fournies dans l’annexe D en fin d’ouvrage. Les étudiants peuvent effectuer les exercices d’auto-évaluation et vérifier immédiatement la solution, de manière à évaluer leur compréhension des concepts présentés dans le chapitre. Annotations dans la marge et remarques Les annotations dans la marge qui soulignent des points clés et fournissent des explications complémentaires aux étudiants, sont une spécificité de l’ouvrage. Ces annotations Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. ! ! X STATISTIQUES POUR L’ÉCONOMIE ET LA GESTION ont pour but de mettre en exergue et de faciliter la compréhension des termes et concepts présentés dans le corps du texte. À la fin de nombreuses sections, nous faisons des remarques destinées à fournir des informations supplémentaires aux étudiants concernant la méthodologie statistique et ses applications. Les remarques signalent également les limites de la méthodologie, fournissent des recommandations pour l’application des concepts, décrivent des techniques complémentaires, etc. Fichiers de données accompagnant l’ouvrage Plus de 200 fichiers de données sont disponibles sur www.deboecksuperieur.com/ site/193089. Ils sont disponibles à la fois sous format Minitab et sous format Excel. Des logos insérés dans la marge permettent d’identifier les fichiers disponibles sur le site. Il s’agit des fichiers de données associés aux problèmes, ainsi qu’aux exercices les plus importants. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. XI Avant-propos REMERCIEMENTS Nous remercions le travail de nos relecteurs pour leurs commentaires et leurs suggestions qui continuent d’améliorer notre ouvrage. Merci à : Ahmad Saranjam Bridgewater State College Ahmad Syamil Arkansas State University Alan Olinsky Bryant University Amanda Felkey Lake Forest College Amy Schmidt Saint Anselm College Anirudh Ruhil Ohio University Asatar Bair City College of San Francisco Atul Gupta Lynchburg College Bedassa Tadesse University of Minnesota, Duluth Bill Swank George Mason University Billy L. Carson II Itawamba Community College Brad McDonald Northern Illinois University Bruce Gouldey Shenandoah University Carl Poch Northern Illinois University Carlton Scott University of California, Irvine Carol Jensen Upper Iowa University Carolyn Rochelle East Tennessee State University Dwight Goehring California State University–Monterey Bay Ceyhun Ozgur Valparaiso University Edwin Shapiro University of San Francisco Charles Nicholas Gomersall Luther College Charles Vawter, Jr. Glendale Community College Elaine Zanutto University of Pennsylvania Emmanuelle Vaast Long Island University Christopher Ball Quinnipiac University Eric B. Howington Valdosta State University Chuck Parker Wayne State College Eric Huggins Fort Lewis College Constance Lightner Fayetteville State University Gauri Shankar Guha Arkansas State University Dale Bails Christian Brothers University Geetha Vaidyanathan University of North Carolina–Greensboro Dale DeBoer University of Colorado, Colorado Springs George H. Jones University of WisconsinRock County David Keswick University of Michigan–Flint Gordon Stringer University of Colorado, Colorado Springs Denise Robson University of Wisconsin, Oshkosh Greg Miller U.S. Naval Academy Doug Dotterweich East Tennessee State University Doug Morris University of New Hampshire Harvey Singer George Mason University Helen Moshkovich University of Montevallo Stephens’ College of Business Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. XII STATISTIQUES Herbert Moskowitz Purdue University Jim Knudsen Creighton University James Jozefowicz Indiana University of Pennsylvania Jim Kuchta D’Youville College James Perry Owens State Community College James Schmidt University of Nebraska, Lincoln James Thorson Southern Connecticut State University James Wright Green Mountain College Jan Stallaert University of Connecticut Janet Pol University of Nebraska, Omaha Jim Zimmer Chattanooga State Technical Community College Jodey Lingg City University Joe Williams Itawamba Community College John Christiansen Southwestern Oregon Community College John Davis University of the Incarnate Word John Vangor Fairfield University Jean Meyer Xavier University of Louisiana Joseph Cavanaugh Wright State University, Lake Campus Jeffrey Bauer University of Cincinnati, Clermont Joseph Williams Itawamba Community College Jeffrey Jarrett University of Rhode Island Josh Kim Quinnipiac University Jena Shafai Bellevue University Julie Szendrey Malone College Jennifer Kohn Montclair State University Kazim Ruhi University of Maryland Jeremy Pittman Coahoma Community College Ken Mayer University of Nebraska at Omaha Jerzy Kamburowski The University of Toledo Kevin Murphy Oakland University Jigish Zaveri Morgan State University Kevin Nguyen Montgomery College POUR L’ÉCONOMIE ET LA GESTION Khosrow Moshirvaziri California State University, Long Beach Kiran R. Bhutani The Catholic University of America Kyle Vann Scott Snead State Community College Larry Corman Fort Lewis College Linda Sturges SUNY Maritime College Lyle Rupert Hendrix College Maggie Williams Flint Northeast State Community College Mark Gius Quinnipiac University Marvin Gonzalez College of Charleston Mary Lynn Engel Saint Joseph’s College of Maine Maryanne Clifford Eastern Connecticut State University Melissa Miller Meridian Community College Michael Broida Miami University of Ohio Michael Gordinier Washington University in St. Louis Michael McKittrick Santa Fe Community College Michael Polomsky Cleveland State University Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. XIII Avant-propos Michael Sklar Rutgers University Mike Racer University of Memphis Minghe Sun University of Texas–San Antonio Molly Zimmer University of Evansville Nancy Brooks University of Vermont Omer Benli California State University, Long Beach Phuoc Huu Tran Bellevue University Phyllis Schumacher Bryant University Ranga Ramasesh Texas Christian University Robert Cochran University of Wyoming Robert Taylor Mayland Community College Robert Vokurka Texas A&M University—Corpus Christi Ronald Kizior Loyola University Chicago Ronnie Watson Southern Arkansas University Rosa Lemel Kean University Saiid Ganjalizadeh The Catholic University of America Scott Callan Bentley College Shauna L. Van Dewark Humphreys College Sheng-Kai Chang Wayne State University Shin-Ping Tucker University of Wisconsin, Superior Stephen Grubagh Bentley University Steven Eriksen Babson College Sue Umashankar University of Arizona Sunil Sapra California State University, Los Angeles Susan Emens Kent State University, Trumbull Campus Susan Sandblom Scottsdale Community College Tenpao Lee Niagara University Thomas R. Sexton Stony Brook University Toni Somers Wayne State University Vivek Shah Texas State University Wayne Bedford University of West Alabama William Pan University of New Haven Yongjing Zhang Midwestern State University Yuri Yatsenko Houston Baptist University Nous avons une dette envers de nombreux collègues et amis pour leurs commentaires et suggestions utiles au développement de cette édition et des précédentes. Parmi eux, citons : Alan Smith Robert Morris College Ali Arshad College of Santa Fe Bennie Waller Francis Marion University Carlton Scott University of California–Irvine Charles Reichert University of Wisconsin–Superior Charles Zimmerman Robert Morris College Dale DeBoer University of Colorado– Colorado Springs Elaine Parks Laramie County Community College Gary Nelson Central Community College–Columbus Campus Gipsie Ranney Belmont University Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. XIV STATISTIQUES Habtu Braha Coppin State College Karen Gutermuth Virginia Military Institute Larry Scheuermann University of Louisiana, Lafayette Md. Mahbubul Kabir Lyon College Nader Ebrahimi University of New Mexico POUR L’ÉCONOMIE ET LA GESTION Raj Devasagayam St. Norbert College Timothy Bergquist Northwest Christian College Robert Cochran University of Wyoming Wibawa Sutanto Prairie View A&M University H. Robert Gadd Southern Adventist University Stephen Smith Gordon College Yan Yu University of Cincinnati Zhiwei Zhu University of Louisiana at Lafayette Nous remercions tout spécialement nos associés des secteurs de l’industrie et des services qui ont participé à la rédaction des « Statistiques appliquées » et dont les noms figurent à la fin de chaque article. Enfin, nous sommes infiniment reconnaissants envers notre directeur éditorial, Joe Sabatino ; notre responsable éditorial, Aaron Arnsparger ; notre développeur éditorial, Maggie Kubale ; notre responsable de projet éditorial, Tamborah Moore ; notre responsable de projet chez MPS, Lynn Lustberg ; notre développeur média, Chris Valentine ; et beaucoup d’autres collaborateurs de Cengage Learnings pour leur conseils éditoriaux et leur soutien durant la préparation de cet ouvrage. David R. Anderson Dennis J. Sweeney Thomas A. Williams Jeffrey D. Camm James J. Cochran Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. À PROPOS DES AUTEURS David R. Anderson. David R. Anderson est professeur émérite d’analyse quantitative à l’école de commerce Lindner de l’université de Cincinnati. Né à Grand Forks, dans le Dakota du Nord, il a obtenu ses diplômes universitaires de 1er et 2e cycle, ainsi que son doctorat à l’université de Purdue. Le professeur Anderson fut directeur du département d’Analyse Quantitative et de Management et vice-doyen de l’école de commerce de l’université de Cincinnati. De plus, il fut le coordinateur du premier programme superviseur de l’école. À l’université de Cincinnati, le professeur Anderson a donné des cours d’introduction aux statistiques aux étudiants en commerce, ainsi que des cours plus avancés d’analyse de la régression, d’analyse multivariée et de management. Il a également donné des cours de statistiques au ministère du travail de Washington. Il a reçu des distinctions pour l’excellence de son enseignement et pour son engagement envers les organisations étudiantes. Le professeur Anderson a co-écrit dix ouvrages dans le domaine des statistiques, du management, de la programmation linéaire et de la gestion de production. Il est un consultant actif dans le domaine des méthodes statistiques et d’échantillonnage. Dennis J. Sweeney. Dennis J. Sweeney est professeur émérite d’analyse quantitative et fondateur du centre pour l’amélioration de la productivité de l’université de Cincinnati. Né à Des Moines, dans l’Iowa, il a obtenu un diplôme de 1er cycle en gestion à l’université de Drake, un diplôme de 2e cycle et un doctorat à l’université de l’Indiana où il reçut une bourse. En 1978-79, le professeur Sweeney travailla au sein du groupe Procter & Gamble ; durant une année, il fut professeur invité à l’université de Duke. Le professeur Sweeney dirigea le département d’Analyse Quantitative et fut vice-doyen de l’école de commerce de l’université de Cincinnati. Le professeur Sweeney a publié plus de 30 articles et monographies dans le domaine du management et des statistiques. La National Science Foundation, IBM, Procter & Gamble, Federated Department Stores, Kroger et Cincinnati Gas & Electric ont financé ses recherches, publiées dans Management Science, Operations Research, Mathematical Programming, Decision Sciences et dans d’autres revues. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. XVI STATISTIQUES POUR L’ÉCONOMIE ET LA GESTION Le professeur Sweeney a co-écrit dix ouvrages dans le domaine des statistiques, du management, de la programmation linéaire et de la gestion de production. Thomas A. Williams. Thomas A. Williams est professeur émérite de management à l’école de commerce de l’Institut de Technologie de Rochester. Né à Elmira, dans l’État de New York, il reçut son diplôme de 1er cycle à l’université Clarkson. Il fit ses années de thèse à l’Institut Polytechnique de Rensselaer, où il reçut son diplôme de 2e cycle et son doctorat. Avant de rejoindre l’école de commerce de l’Institut de Technologie de Rochester, le professeur Williams fut membre durant sept ans de l’école de commerce de l’université de Cincinnati, où il conçut le programme « Systèmes d’information » puis en fut le coordinateur. À l’Institut de Technologie de Rochester, il fut le premier directeur du département des sciences de la décision. Il enseigna le management et les statistiques, et donna des cours d’analyse de la régression aux étudiants en licence. Le professeur Williams a co-écrit onze ouvrages dans les domaines du management, des statistiques, de la gestion de production et des mathématiques. Il fut consultant pour de nombreuses entreprises appartenant au classement Fortune 500 et a travaillé sur des projets allant de l’utilisation de l’analyse des données au développement de modèles de régression à grande échelle. Jeffrey D. Camm. Jeffrey D. Camm est professeur d’analyse quantitative, responsable du département « Operations, Business Analytics and Information Systems » et membre du centre de recherche de l’école de commerce Lindner de l’université de Cincinnati. Né à Cincinnati dans l’Ohio, il a obtenu son diplôme de premier cycle à l’université Xavier et son doctorat à l’université Clemson. Il enseigne à l’université de Cincinnati depuis 1984 et fut chercheur invité à l’université de Stanford et professeur invité à l’école de commerce Tuck du Dartmouth College. Le professeur Camm a publié plus de 30 articles dans le domaine de l’optimisation appliquée au management opérationnel. Il a publié ses travaux dans Science, Management Science, Operations Research, Interfaces et d’autres revues professionnelles. À l’université de Cincinnati, il fut nommé membre Dornoff pour l’excellence de son enseignement et a reçu en 2006 le prix INFORMS pour son enseignement en recherche opérationnelle. Fervent défenseur de la mise en application de la théorie, il fut consultant pour de nombreuses sociétés et agences gouvernementales. De 2005 à 2010, il fut éditeur en chef de la revue Interfaces et est actuellement membre du comité éditorial de INFORMS Transactions on Education. James J. Cochran. James J. Cochran est professeur d’analyse quantitative à la Bank of Ruston Barnes, Thompson & Thurman de l’université Louisiana Tech. Né à Dayton, dans l’Ohio, il a obtenu ses diplômes de premier et second cycle à l’université d’État Wright et son doctorat à l’université de Cincinnati. Il enseigne à l’université Louisiana Tech depuis 2000 et fut chercheur invité dans les universités de Stanford, de Talca, d’Afrique du Sud et au Pôle Universitaire Léonard de Vinci. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. À propos des auteurs XVII Le professeur Cochran a publié plus de deux douzaines d’articles dans le domaine du développement et de l’application des méthodes statistiques et de la recherche opérationnelle. Il a publié ses travaux dans Management Science, The American Statistician, Communications in Statistics – Theory and Methods, European Journal of Operational Research, Journal of Combinatorial Optimization et d’autres revues professionnelles. Il a reçu en 2008 le prix INFORMS pour son enseignement en recherche opérationnelle et en 2010 la récompense Mu Sigma Rho pour son enseignement en statistique. Le professeur Cochran fut élu à l’Institut Statistique International en 2005 et nommé membre de l’Association américaine de statistiques en 2011. Défenseur de la recherche opérationnelle et de l’enseignement des statistiques comme moyen d’améliorer la qualité des applications aux problématiques réelles, le professeur Cochran a organisé et présidé des groupes de travail sur l’efficacité de l’enseignement à Montevideo (Uruguay), au Cap (Afrique du Sud), à Carthage (Colombie), à Jaipur (Inde), à Buenos Aires (Argentine), Nairobi (Kenya) et Buea (Cameroun). Il fut consultant en recherche opérationnelle pour de nombreuses sociétés et des organisations à but non lucratif. De 2007 à 2012, il fut éditeur en chef de INFORMS Transactions on Education et membre du comité éditorial de Interfaces, du Journal of the Chilean Institute of Operations Research, du Journal of Quantitative Analysis in Sports et d’ORiON. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 1 DONNÉES ET STATISTIQUES 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Applications en économie et gestion Données Sources de données Études statistiques Statistiques descriptives Inférence statistique Informatique et analyse statistique Traitement des données Guide des bonnes pratiques statistiques Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 4 6 13 15 18 20 22 22 24 2 DONNÉES ET STATISTIQUES STATISTIQUES APPLIQUÉES Bloomberg Business Week* New York, État de New York Avec un tirage mondial de plus d’un million d’exemplaires, Bloomberg Business Week est le magazine d’information économique et financière le plus lu au monde. Les 1 700 reporters de Bloomberg, répartis dans 145 bureaux à travers le monde, sont en mesure de fournir une grande variété d’articles, suscitant l’intérêt des économistes et hommes d’affaires. En plus d’articles de fond traitant de sujets d’actualité, le magazine contient des articles relatifs au commerce international, à l’analyse économique, au traitement de l’information, aux sciences et technologies. Les informations contenues dans les articles de fond et les rubriques récurrentes aident les lecteurs à se tenir informés des développements récents dans les domaines considérés et à évaluer l’impact de ces derniers sur les affaires et les conditions économiques. La plupart des numéros de Bloomberg Business Week, publiés auparavant sous le titre Business Week, contiennent un dossier détaillé sur un sujet d’actualité. Souvent, les dossiers détaillés contiennent des éléments et des résumés statistiques qui aident le lecteur à comprendre l’information économique. Par exemple, l’impact du développement du cloud computing sur les entreprises, la crise à laquelle fait face l’opérateur postal USPS ou les raisons qui font que la crise de la dette a été pire que prévue, ont fait l’objet de nombreux articles et de dossiers. De plus, Bloomberg Business Week fournit de nombreuses statistiques sur l’état de l’économie, dont des indices de production, le prix des actions, la valeur des fonds communs de placement et les taux d’intérêt. Bloomberg Business Week utilise également des données et des informations statistiques pour gérer sa propre activité commerciale. Par exemple, une enquête annuelle auprès de ses abonnés aide la société à connaître leur profil, leurs habitudes de lecture, leurs achats, leur style de vie, etc. Les responsables de Bloomberg Business Week utilisent les résultats statistiques de l’enquête pour améliorer les services qu’ils offrent à leurs abonnés et aux annonceurs publicitaires. Une enquête récente a révélé que 90 % des abonnés Nord-Américains à Bloomberg Business Week utilisent un ordinateur personnel à la maison et que 64 % envisagent l’achat d’un ordinateur sur un plan professionnel. De telles statistiques avertissent les dirigeants de Bloomberg Business Week de l’intérêt que peuvent porter leurs abonnés à des articles relatifs aux nouveaux développements informatiques. De plus, les conclusions de ces enquêtes sont mises à la disposition d’annonceurs potentiels. Le pourcentage élevé d’abonnés utilisant un ordinateur à la maison et envisageant l’achat d’un ordinateur dans un cadre professionnel peut inciter certains fabricants à faire de la publicité pour leurs produits dans le magazine. Dans ce chapitre, nous discuterons des types de données disponibles pour l’analyse statistique et décrirons les moyens de les obtenir. Nous introduirons ensuite les statistiques descriptives et l’inférence statistique en tant que moyens de convertir des données en information statistique utile et facilement interprétable. * Les auteurs remercient Charlene Trentham, directrice de recherche, de leur avoir fourni ce Statistiques appliquées. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Données et statistiques 3 Fréquemment, on lit ce genre de phrases dans les journaux et les magazines : Le prix médian d’une maison individuelle ancienne s’élève à 186 000 dollars, en hausse de 7,6 % par rapport à l’an dernier (The Wall Street Journal, 8 novembre 2012). 14,1 % des directeurs généraux des sociétés appartenant au classement Fortune 500 sont des femmes (The Wall Street Journal, 30 avril 2012). Le coût annuel moyen d’une année d’étude s’élève à 17 100 dollars dans les universités publiques d’État et à 38 600 dollars dans les universités privées (Money Magazine, mars 2012). Une enquête de Yahoo Finance a révélé que 51 % des travailleurs pensent que la clé pour progresser réside dans la politique de promotion interne alors que 27 % pensent que la clé, c’est de travailler dur (USA Today, 29 septembre 2012). L’âge médian lors du premier mariage est de 29 ans pour les hommes et 26 ans pour les femmes (Associated Press, 25 décembre 2011). Le pourcentage de travailleurs américains dormant moins de six heures par nuit est de 30 % (The Wall Street Journal, 4 août 2012). Le découvert moyen des cartes de crédit est de 5 204 dollars par personne (site Internet de PRWeb, 5 avril 2012). Les chiffres présents dans les phrases ci-dessus (186 000 dollars ; 7,6 % ; 14,1 % ; 17 100 dollars ; 38 600 dollars ; 51 % ; 27 % ; 29 ; 26 ; 30 % et 5 204 dollars) sont appelés statistiques. Ainsi, dans le langage courant, le terme « statistique » recouvre des données chiffrées telles que les moyennes, les médianes, les pourcentages et les valeurs maximales qui nous aident à comprendre l’environnement économique. Cependant, comme vous le verrez, le champ ou le contenu des statistiques inclut beaucoup plus que des chiffres. De façon plus générale, la statistique est l’art et la science de collecter, analyser, présenter et interpréter des données. Plus particulièrement en économie et dans le monde des affaires, l’information fournie par la collecte, l’analyse, la présentation et l’interprétation des données, offre aux dirigeants une meilleure compréhension de l’environnement économique et commercial et leur permet ainsi de prendre de bonnes décisions en toute connaissance de cause. Dans cet ouvrage, nous insistons sur l’utilisation des statistiques dans la prise de décision en matière économique et commerciale. Le chapitre 1 débute par quelques exemples d’applications statistiques dans le monde des affaires et en économie. Dans la section 1.2, nous définissons le terme « données » et introduisons le concept d’ensemble de données. Cette section introduit également des termes clés comme « variables » et « observations », discute des différences entre données quantitatives et qualitatives et illustre l’utilisation des données en coupe transversale et les séries temporelles. La section 1.3 traite de la collecte des données à partir de sources existantes ou à partir d’enquêtes ou d’études expérimentales conçues pour obtenir de nouvelles données. Le rôle clé que joue désormais Internet dans la collecte de données est également souligné. L’utilisation des données pour développer des statistiques descriptives et faire de l’inférence statistique est décrite dans les sections 1.4 et 1.5. Les trois dernières sections du chapitre 1 décrivent le rôle de l’informatique dans l’analyse Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 4 DONNÉES ET STATISTIQUES statistique, fournissent une introduction au traitement des données et une discussion des bonnes pratiques statistiques. Une annexe à la fin du chapitre propose une introduction à l’outil statistique StatTools qui peut être utilisé pour élargir les possibilités d’analyse statistique offertes par Microsoft Excel. 1.1 APPLICATIONS EN ÉCONOMIE ET GESTION Dans l’environnement économique et commercial actuel, tout le monde a accès à de nombreuses informations statistiques. Les dirigeants et les managers qui ont le plus de succès, sont ceux qui comprennent l’information et savent l’utiliser à bon escient. Dans cette section, nous présentons des exemples qui illustrent quelques utilisations de statistiques dans le domaine économique et commercial. 1.1.1 Comptabilité Les experts comptables utilisent des procédures d’échantillonnage statistique lorsqu’ils effectuent des audits pour le compte de leurs clients. Par exemple, supposons qu’une entreprise de comptabilité veuille déterminer si le montant du compte « fournisseurs » qui apparaît dans le bilan, correspond bien au montant réel. Généralement, le nombre de fournisseurs est tellement grand que réexaminer et valider chaque compte individuellement serait trop long et trop coûteux. Dans de telles situations, il est courant que l’expert-comptable sélectionne un sous-ensemble de comptes, appelé échantillon. Après avoir réexaminé les comptes de l’échantillon, l’expert-comptable conclut si le montant du compte « fournisseurs » inscrit dans le bilan est acceptable ou non. 1.1.2 Finance Les analystes financiers utilisent des informations statistiques diverses pour orienter leurs recommandations en matière d’investissement. Dans le cas de titres boursiers, les analystes examinent un certain nombre de données financières, telles que le coefficient de capitalisation des résultats et le rendement des dividendes. En comparant l’information pour un titre seul et l’information pour la moyenne des titres du marché, un analyste financier peut déjà savoir si le titre est un bon investissement. Par exemple, The Wall Street Journal (19 mars 2012) rapportait que le coefficient moyen de capitalisation des 500 sociétés formant l’indice S&P 500 était de 2,2 %. Le coefficient de capitalisation de Microsoft s’élevait à 2,42 %. Ces différentes informations statistiques sur le coefficient de capitalisation nous indiquent que le rendement de Microsoft était supérieur au rendement moyen des 500 sociétés composant l’indice S&P 500. Cette information, ajoutée à d’autres, pourrait aider l’analyste financier à recommander l’achat, la vente ou la conservation des actions Microsoft. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Applications en économie et gestion 5 1.1.3 Marketing Les scanners électroniques des caisses enregistreuses dans les commerces collectent des données, utilisées dans de nombreuses applications de recherche en marketing. Par exemple, des sociétés telles que ACNielsen et Information Resources achètent les données recueillies par les scanners des caisses enregistreuses, les exploitent et vendent ensuite les conclusions statistiques aux fabricants. Les fabricants dépensent des centaines de milliers de dollars par catégorie de produit pour obtenir ce type de données scannées. Ils achètent également les données et les conclusions statistiques relatives aux activités promotionnelles, telles que les offres spéciales en tête de gondole dans les magasins. Les responsables de la marque peuvent examiner les conclusions des études statistiques menées à partir des données scannées afin de mieux comprendre la relation entre vente et promotion. De telles analyses se révèlent souvent utiles pour établir les futures stratégies commerciales des produits concernés. 1.1.4 Production L’importance accordée de nos jours à la qualité fait de son contrôle une application primordiale de la statistique, dans la gestion de la production. De nombreux graphiques de contrôle de la qualité sont utilisés pour vérifier les caractéristiques du produit fini dans un processus de production. En particulier, un diagramme en barres peut être utilisé pour contrôler la production moyenne. Supposons, par exemple, qu’une machine remplisse des canettes de 33 cl d’une boisson non-alcoolisée. Périodiquement, un agent de production sélectionne un échantillon de canettes et calcule la quantité moyenne contenue dans les canettes de l’échantillon. Cette moyenne, ou valeur x, est représentée sur un graphique de la moyenne. Un point situé au-dessus de la limite supérieure du graphique indique un sur-remplissage alors qu’un point situé en-dessous de la limite inférieure indique un sousremplissage. Le processus de production est dit « sous contrôle » et peut se poursuivre tant que les points représentés sur le graphique de la moyenne sont compris entre les limites inférieure et supérieure. L’interprétation correcte d’un diagramme en barres permet de déterminer si des ajustements sont nécessaires, afin de corriger le processus de production. 1.1.5 Économie Les économistes fournissent fréquemment des prévisions à propos de certains faits économiques futurs. Ils utilisent de nombreuses informations statistiques pour effectuer ces prévisions. Par exemple, pour prévoir le taux d’inflation, les économistes utilisent des indicateurs tels que l’indice des prix à la production, le taux de chômage et le taux d’utilisation des capacités de production. Souvent, ces indicateurs statistiques sont intégrés à des modèles de prévision qui prévoient le taux d’inflation. 1.1.6 Les systèmes d’information Les administrateurs des systèmes d’information sont responsables au jour le jour du fonctionnement des réseaux informatiques de l’entreprise. Une grande quantité d’information Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 6 DONNÉES ET STATISTIQUES statistique permet aux administrateurs réseaux d’évaluer la performance des outils informatiques, des réseaux locaux ou à distance, de l’intranet et des autres moyens de communication. Des statistiques telles que le nombre moyen d’utilisateurs du système, la durée durant laquelle chaque composant du système n’est pas utilisé et la part de la bande passante utilisée à différents moments de la journée sont des exemples d’informations statistiques qui aident l’administrateur des systèmes informatiques à mieux comprendre et gérer le réseau informatique. Les applications statistiques telles que celles décrites dans cette section font partie intégrante de cet ouvrage. De tels exemples fournissent un aperçu de l’étendue des applications statistiques. Pour compléter ces exemples, nous avons demandé à des personnes utilisant des statistiques dans les domaines commercial et économique, de rédiger des articles dans la section intitulée « Statistiques appliquées », afin d’introduire les outils présentés dans chaque chapitre. Les applications décrites dans Statistiques appliquées illustrent concrètement l’importance des statistiques. 1.2 DONNÉES Les données sont les faits et les chiffres qui sont collectés, analysés et résumés pour pouvoir ensuite être interprétés. Toutes les données collectées dans une étude particulière forment l’ensemble de données de l’étude. Le tableau 1.1 présente un ensemble de données contenant des informations relatives à 60 pays qui font partie de l’Organisation mondiale du commerce. L’Organisation mondiale du commerce encourage le libre-échange au niveau international et constitue une plateforme de résolution des conflits commerciaux. Tableau 1.1 Ensemble de données pour les 60 pays de l’Organisation mondiale du commerce Pays PIB par tête ($) Déficit de la balance commerciale (en milliers de $) Note Fitch Perspective Fitch Arménie Membre 5 400 2 673 359 BB– Stable Australie Membre 40 800 –33 304 157 AAA Stable Membre 41 700 12 796 558 AAA Stable Observateur 5 400 –16 747 320 BBB– Positive Autriche Azerbaïdjan Nations Statut à l’OMC Bahreïn Membre 27 300 3 102 665 BBB Stable Belgique Membre 37 600 –14 930 833 AA+ Negative Brésil Membre 11 600 –29 796 166 BBB Stable Bulgarie Membre 13 500 4 049 237 BBB– Positive Canada Membre 40 300 –1 611 380 AAA Stable Cap Vert Membre 4 000 874 459 B+ Stable Chili Membre 16 100 –14 558 218 A1 Stable Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 7 Données Chine Membre 8 400 –156 705 311 A1 Stable Colombie Membre 10 100 –1 561 199 BBB– Stable Costa Rica Membre 11 500 5 807 509 BB+ Stable Croatie Membre 18 300 8 108 103 BBB– Negative Chypre Membre 29 100 6 623 337 BBB Negative République tchèque Membre 25 900 –10 749 467 A+ Positive Danemark Membre 40 200 –15 057 343 AAA Stable République de l’Équateur Membre 8 300 1 993 819 B– Stable Égypte Membre 6 500 28 486 933 BB Negative Salvador Membre 7 600 5 019 363 BB Stable Estonie Membre 20 200 802 234 A+ Stable France Membre 35 000 118 841 542 AAA Stable Géorgie Membre 5 400 4 398 153 B+ Positive Allemagne Membre 37 900 –213 367 685 AAA Stable Hongrie Membre 19 600 –9 421 301 BBB– Negative Islande Membre 38 000 –504 939 BB+ Stable Irlande Membre 39 500 –59 093 323 BBB+ Negative Israël Membre 31 000 6 722 291 A Stable Italie Membre 30 100 33 568 668 A+ Negative Japon Membre 34 300 31 675 424 AA Negative Observateur 13 000 –33 220 437 BBB Positive Kenya Membre 1 700 9 174 198 B+ Stable Lettonie Membre 15 400 2 448 053 BBB– Positive Observateur 15 600 13 715 550 B Stable Membre 18 700 3 359 641 BBB Positive Kazakhstan Liban Lituanie Malaisie Membre 15 600 –39 420 064 A– Stable Mexique Membre 15 100 1 288 112 BBB Stable Pérou Membre 10 000 –7 888 993 BBB Stable Philippines Membre 4 100 15 667 209 BB+ Stable Pologne Membre 20 100 19 552 976 A– Stable Negative Portugal Membre 23 200 21 060 508 BBB– Corée du Sud Membre 31 700 –37 509 141 A+ Stable Roumanie Membre 12 300 13 323 709 BBB– Stable Positive Russie Observateur 16 700 –151 400 000 BBB Rwanda Membre 1 300 939 222 B Stable Serbie Observateur 10 700 8 275 693 BB– Stable Seychelles Observateur 24 700 666 026 B Stable Singapour Membre 59 900 –27 110 421 AAA Stable Slovaquie Membre 23 400 –2 110 626 A+ Stable Slovénie Membre 29 100 2 310 617 AA– Negative Afrique du Sud Membre 11 000 3 321 801 BBB+ Stable Suède Membre 40 600 –10 903 251 AAA Stable Suisse Membre 43 400 –27 197 873 AAA Stable Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 8 DONNÉES ET STATISTIQUES Thaïlande Membre 9 700 2 049 669 BBB Stable Turquie Membre 14 600 71 612 947 BB+ Positive Royaume-Uni Membre 35 900 162 316 831 AAA Negative Uruguay Membre 15 400 2 662 628 BB Positive États-Unis Membre 48 100 784 438 559 AAA Stable Zambie Membre 1 600 –1 805 198 B+ Stable 1.2.1 Éléments, variables et observations Les éléments sont les entités auprès desquelles les données sont collectées. Chaque pays listé dans le tableau 1.1 est un élément, dont le nom apparaît dans la première colonne. Puisqu’il y a 60 pays, l’ensemble de données contient 60 éléments. Une variable est une caractéristique des éléments à laquelle on s’intéresse. L’ensemble de données du tableau 1.1 contient les cinq variables suivantes : Le statut à l’OMC : le statut de membre du pays au sein de l’Organisation mondiale du commerce ; le pays peut être membre ou observateur. Le PIB par tête ($) : la production globale du pays divisée par le nombre d’habitants du pays ; il s’agit d’une variable communément utilisée pour comparer la productivité économique des pays. Le déficit de la balance commerciale (en milliers de dollars) : la différence entre la valeur (en dollars) des importations et des exportations du pays. La note Fitch : l’évaluation de la dette souveraine du pays établie par le groupe Fitch1 ; les notes vont de AAA à F et peuvent être modulées par + ou -. Les perspectives Fitch : un indicateur de la tendance vers laquelle la note pourrait tendre dans les deux ans à venir ; les prévisions peuvent être négatives, stables ou positives. Les données sont obtenues en collectant des informations sur chaque variable pour tous les éléments de l’étude. L’ensemble des informations obtenues pour un élément particulier correspond à une observation. En se référant au tableau 1.1, nous voyons que la première observation contient l’ensemble des informations suivantes : Membre, 5 400, 2 673 359, BB- et Stable. La seconde contient les informations suivantes : Membre, 40 800, -33 304 157, AAA et Stable ; et ainsi de suite. Un ensemble de données de 60 éléments contient 60 observations. 1.2.2 Échelles de mesure Différentes échelles de mesure d’une variable existent : nominale, ordinale, par intervalle (ou cardinale) ou de rapport. L’échelle de mesure détermine la quantité d’information contenue dans les données et indique la méthode d’analyse des données la plus appropriée. 1 Le groupe Fitch est l’une des trois institutions de notation reconnues aux États-Unis, certifiées par la Commission de contrôle des marchés financiers américaine, la SEC (Securities and Exchanges Commission). Les deux autres sont Standard and Poor’s et Moody’s. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 9 Données Lorsque les données d’une variable consistent en des labels ou des noms utilisés pour identifier une caractéristique de l’élément, l’échelle de mesure est nominale. Par exemple, en se référant au tableau 1.1, nous voyons que l’échelle de mesure de la variable « Statut à l’OMC » est nominale, les qualitatifs « membre » ou « observateur » étant utilisés pour identifier le statut du pays au sein de l’OMC. Dans les cas où l’échelle de mesure est nominale, un code numérique ou alpha-numérique peut être utilisé. Par exemple, pour faciliter la collecte de données et préparer les données en vue de leur incorporation dans une base de données informatisée, nous pourrions utiliser un code numérique, en attribuant le chiffre 1 aux pays membres, le chiffre 2 aux pays observateurs. L’échelle de mesure est nominale même si les données apparaissent sous la forme de valeurs numériques. L’échelle de mesure d’une variable est ordinale si les données exhibent les propriétés nominales et qu’il est possible de les ordonner (si cela a un sens). Par exemple, en se référant aux données du tableau 1.1, l’échelle de mesure pour la note Fitch est ordinale puisque les notes qui vont de AAA à F, peuvent être ordonnées de la meilleure à la moins bonne note. Le système de notation par lettre possède les propriétés des données nominales mais en plus, ces données peuvent être classées ou ordonnées, ce qui implique que l’échelle de mesure est ordinale. Les données ordinales peuvent également être enregistrées sous forme de code numérique, par exemple, votre classement à l’école. L’échelle de mesure d’une variable devient cardinale (ou par intervalle) si les données possèdent les propriétés ordinales et si l’intervalle entre les valeurs peut être mesuré par une unité de mesure fixe. Les données cardinales (ou par intervalle) sont toujours numériques. Les résultats d’un test d’aptitude intellectuelle sont un exemple de données cardinales. Par exemple, les résultats de trois étudiants à un test de mathématiques (620, 550 et 470) peuvent être ordonnés de la meilleure à la moins bonne performance. De plus, les écarts entre les résultats ont un sens. Par exemple, l’étudiant 1 a obtenu 620-550 = 70 points de plus que l’étudiant 2, alors que l’étudiant 2 a obtenu 550-470 = 80 points de plus que l’étudiant 3. L’échelle de mesure d’une variable est dite de rapport si les données ont toutes les propriétés des données cardinales et que le rapport entre deux valeurs a un sens. Des variables telles que la distance, la hauteur, le poids et la durée, utilisent une échelle de rapport. Cette échelle nécessite l’inclusion d’une valeur nulle pour indiquer que rien n’existe pour la variable au point zéro. Par exemple, considérons le coût d’une automobile. Une valeur nulle indique que l’automobile a un coût nul et est gratuite. De plus, si nous comparons une automobile dont le coût est de 30 000 dollars à une autre automobile dont le coût est de 15 000 dollars, le rapport indique que le coût de la première automobile est deux fois plus élevé que celui de la seconde. 1.2.3 Données qualitatives et données quantitatives Par ailleurs, les données peuvent être classées en fonction de leur nature qualitative ou quantitative. Les données qui peuvent être regroupées par catégorie sont des données qualitatives (ou catégorielles). L’échelle de mesure des données qualitatives peut être ordinale ou nominale. Les données qui prennent des valeurs numériques pour indiquer des Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 10 DONNÉES ET STATISTIQUES quantités sont des données dites quantitatives. Les données quantitatives ont une échelle de mesure cardinale ou de rapport. Une variable qualitative (ou catégorielle) est une variable dont les données sont qualitatives, et une variable quantitative est une variable dont les données sont quantitatives. L’analyse statistique appropriée à une variable particulière dépend de sa nature qualitative ou quantitative. Si la variable est qualitative, l’analyse statistique est plutôt limitée. Nous pouvons résumer des données qualitatives en dénombrant le nombre d’observations ou en calculant la proportion d’observations dans chaque catégorie. Cependant, même lorsque des données qualitatives sont identifiées par un code numérique, des opérations arithmétiques telles que l’addition, la soustraction, la multiplication et la division, ne permettent pas d’obtenir des résultats ayant un sens. La section 2.1 traite des méthodes d’analyse des données qualitatives. La méthode statistique appropriée pour résumer des données dépend de la nature quantitative ou qualitative des données. Par contre, les opérations arithmétiques fournissent des résultats ayant un sens lorsque les variables sont quantitatives. Par exemple, des données quantitatives peuvent être additionnées et divisées par le nombre d’observations de façon à calculer la valeur moyenne. Cette moyenne a un sens mathématique et est facilement interprétable. En général, les outils d’analyse statistique sont plus nombreux pour des données quantitatives. La section 2.2 et le chapitre 3 présentent les méthodes d’analyse statistique des données quantitatives. 1.2.4 Données en coupe transversale et séries temporelles Pour les besoins de l’analyse statistique, la distinction entre les données en coupe transversale et les séries temporelles est fondamentale. Les données en coupe transversale sont collectées au même moment (ou approximativement au même moment). Les données du tableau 1.1 sont en coupe transversale puisqu’elles décrivent les cinq variables pour les 60 nations de l’Organisation mondiale du commerce à un même moment dans le temps. Les séries temporelles sont des données collectées sur plusieurs périodes de temps différentes. Par exemple, la figure 1.1 représente le prix moyen d’un gallon d’essence sans plomb aux États-Unis entre 2007 et 2012. Notez que le prix de l’essence sans plomb a atteint un point haut durant l’été 2008 puis a fortement chuté durant l’automne 2008. Depuis 2008, le prix moyen d’un gallon d’essence a régulièrement augmenté, approchant d’un nouveau sommet en 2012. On trouve fréquemment dans les publications économiques une représentation graphique des séries temporelles. De tels graphiques aident les analystes à comprendre ce qui s’est passé, à identifier les tendances au cours du temps et à prévoir les niveaux futurs des séries temporelles. On trouve diverses formes de graphiques de séries temporelles, comme illustré par la figure 1.2. Avec quelques connaissances, ces graphiques sont généralement faciles à comprendre et interpréter. Par exemple, le graphique A sur la figure 1.2 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 11 Données 4,50$ 4,00$ Prix moyen d’un gallon 3,50$ 3,00$ 2,50$ 2,00$ 1,50$ 1,00$ 0,50$ 0.00$ Janv. 07 Août 07 Mars 08 Oct. 08 Mai 09 Déc. 09 Juil. 10 Fév. 11 Sept. 11 Mars 12 Date Figure 1.1 Prix moyen d’un gallon d’essence sans plomb aux États-Unis Source : Administration américaine de l’information sur l’énergie, Département américain de l’énergie, mars 2012. représente l’indice Dow Jones Industriel de 2002 à 2012. En avril 2002, l’indice était proche de 10 000 points. Au cours des cinq années suivantes, l’indice a augmenté jusqu’à son plus haut niveau jamais atteint, plus de 14 000 points en octobre 2007. Cependant, notez la chute brutale de l’indice après ce record de 2007. En mars 2009, l’indice était revenu à 7 000 points en raison d’un contexte économique défavorable. Ce fut une période effrayante et décourageante pour les investisseurs. Toutefois, fin 2009, l’indice a commencé à se redresser, atteignant 10 000 points. Il a régulièrement progressé ensuite et était supérieur à 13 000 points début 2012. Le graphique B représente le revenu net de la société McDonald’s entre 2005 et 2011. La crise économique de 2008 et 2009 fut plutôt bénéfique à MacDonald’s, son revenu net atteignant un record historique. La croissance du revenu net de la société illustre le fait que la société a prospéré durant la crise : les ménages ont réduit leurs dépenses en fréquentant moins les restaurants plus chers et en se rabattant sur les alternatives moins onéreuses offertes par McDonald’s. Le revenu net de McDonald’s a continué à progresser, atteignant des niveaux jamais atteints en 2010 et 2011. Le graphique C illustre une série temporelle des taux d’occupation des hôtels dans le Sud de la Floride au cours d’une année. Les taux d’occupation les plus élevés entre 95 % et 98 % sont observés durant les mois de février et mars lorsque le climat du Sud de la Floride est le plus attractif pour les touristes. En réalité, la saison haute pour les Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 12 Indice Dow Jones industriel DONNÉES 16 000 14 000 12 000 10 000 8 000 6 000 4 000 2 000 0 Avril 02 Avril 04 Avril 06 Avril 08 Avril 10 Année (A) Indice Dow Jones industriel ET STATISTIQUES Avril 12 Revenu net (milliards de dollars) 6 5 4 3 2 1 0 2005 2011 2008 2009 2010 Année (B) Revenu net de la société McDonalds 2006 2007 Taux d’occupation 100 80 60 40 20 Ja nv ie Fé r vr ie M r ar s Av ril M ai Ju in Ju ille Se A t pt oût em b Oc re No tob ve re Dé mb ce re m br e 0 Mois (C) Taux d’occupation des hôtels du Sud de la Floride Figure 1.2 Quelques représentations graphiques de séries temporelles Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 13 Sources de données hôteliers du Sud de la Floride s’étend généralement du mois de janvier au mois d’avril. D’un autre côté, observez les taux d’occupation d’août à octobre : le taux d’occupation le plus faible (50 %) est observé en septembre. Les températures élevées et la saison des ouragans expliquent cette baisse de la fréquentation des hôtels en cette période. REMARQUES 1. Une observation est un ensemble de mesures obtenues pour chaque élément d’un ensemble de données. Ainsi, le nombre d’observations et le nombre d’éléments sont identiques. Le nombre de mesures obtenues sur chaque élément est égal au nombre de variables. Par conséquent, le nombre total de valeurs dans un ensemble de données peut être obtenu en multipliant le nombre d’observations par le nombre de variables. 2. Les données quantitatives peuvent être discrètes ou continues. Celles qui mesurent une variable dénombrable (par exemple, le nombre d’appels reçus en 5 minutes) sont discrètes. Celles qui mesurent des variables indénombrables (par exemple, le poids ou le temps) sont continues, aucune séparation n’étant possible entre les valeurs potentielles des données. 1.3 SOURCES DE DONNÉES Les données peuvent être obtenues à partir de sources existantes ou grâce à des enquêtes ou des études menées spécifiquement dans le but de collecter de nouvelles données. 1.3.1 Sources existantes Dans certains cas, les données nécessaires à une application particulière existent déjà. De nombreuses entreprises constituent des bases de données sur leurs employés, leurs clients et leurs opérations commerciales. Des données sur le salaire, l’âge et les années de service des employés peuvent généralement être obtenues auprès du service du personnel. D’autres services internes à l’entreprise collectent des données sur les ventes, les dépenses publicitaires, les coûts de distribution, l’inventaire et les quantités produites. La plupart des entreprises entretiennent également des bases de données sur leurs clients. Le tableau 1.2 fournit quelques exemples de données fréquemment disponibles dans les services internes des entreprises. Des organismes spécialisés dans la collecte et le traitement des données fournissent des quantités substantielles de données économiques et commerciales. Les entreprises ont accès à ces sources de données externes par des arrangements de crédit-bail ou par achat. Dun & Bradstreet, Bloomberg et Dow Jones & Company sont trois entreprises qui fournissent de vastes services en matière de collecte de données. Les sociétés Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 14 DONNÉES Tableau 1.2 ET STATISTIQUES Exemples de données disponibles dans les registres internes de l’entreprise Source Types de données disponibles Registre des employés Nom, adresse, numéro de sécurité sociale, salaire, nombre de jours de congé, nombre de jours d’arrêt maladie et prime. Registre de la production Référence de la pièce ou du produit, quantité produite, coût direct du travail et coût des matériaux. Inventaire Référence de la pièce ou du produit, nombre d’unités disponibles, prévision de production, quantité commandée et grille tarifaire. Registre des ventes Référence du produit, volume des ventes, volume des ventes par région et par type de client. Registre des crédits Nom du client, adresse, numéro de téléphone, crédit maximal et solde des créances. Profil des clients Âge, sexe, niveau de revenu, taille du ménage, adresse et préférences. ACNielsen et Information Resources prospèrent grâce à la collecte et au traitement des données, qu’elles vendent ensuite à des annonceurs et à des producteurs. De nombreuses associations industrielles et organisations de lobbying disposent également de nombreuses données. L’association américaine de l’industrie du tourisme conserve des informations relatives au tourisme, comme le nombre de touristes et le montant des dépenses touristiques par État. De telles informations peuvent intéresser l’industrie du tourisme. Le conseil d’admission des écoles supérieures de commerce conserve des données sur les résultats des tests, les caractéristiques des étudiants et le programme des cours. La plupart des données issues de ces sources sont accessibles à un coût modeste. Internet est une source importante de données et d’informations statistiques. La plupart des sociétés possèdent leur site Web, sur lequel apparaissent des informations générales sur la société, ainsi que des données sur les ventes, le nombre d’employés, la gamme de produits, leurs prix et leurs spécificités. De plus, certaines entreprises se sont désormais spécialisées dans la divulgation d’informations sur Internet. En conséquence, tout le monde peut obtenir les cotations boursières, les prix d’un repas au restaurant, des données sur les salaires et une quantité d’informations quasi infinie. Tableau 1.3 Exemples de données disponibles auprès de quelques agences gouvernementales Agence gouvernementale Données disponibles Bureau des recensements Données sur la population, le nombre de ménages et leurs revenus. Banque centrale américaine Données sur l’offre de monnaie, le crédit, le taux de change et le taux d’escompte. Ministère des finances Données sur le revenu, les dépenses et la dette du gouvernement fédéral. Département du commerce Données sur l’activité commerciale, la valeur des ventes par industrie, le niveau de profit par industrie, les industries en déclin et en croissance. Bureau des statistiques du travail Dépenses des ménages, salaires horaires, taux de chômage, sécurité au travail, statistiques internationales. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Études statistiques 15 Figure 1.3 La page d’accueil du site Internet du bureau américain des statistiques du travail Les agences gouvernementales sont une autre source importante de données existantes. Par exemple, le département américain du travail conserve des données sur le taux d’embauche, les salaires, la taille de la population active et le degré de syndicalisation. Le tableau 1.3 fournit la liste de quelques agences gouvernementales et des données dont elles disposent. La plupart des agences gouvernementales qui collectent et traitent des données, rendent également public le résultat de leurs investigations sur un site Internet. La figure 1.3 présente la page d’accueil du site Internet du bureau américain des statistiques du travail. 1.4 ÉTUDES STATISTIQUES Parfois les données nécessaires à une étude particulière ne sont pas disponibles auprès de sources existantes. Dans ces cas, les données peuvent être obtenues en effectuant une étude statistique. On distingue deux types d’études statistiques : les études expérimentales et les études empiriques. La plus importante étude statistique expérimentale jamais réalisée est, semble-t-il, l’expérience réalisée par le Service public de la santé en 1954 relative à la campagne de vaccination contre la polio. Près de deux millions d’enfants scolarisés dans le primaire ont été sélectionnés à travers les États-Unis. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 16 DONNÉES ET STATISTIQUES Dans une étude expérimentale, on identifie en premier lieu la variable qui nous intéresse. Ensuite, une ou plusieurs autres variables sont identifiées et contrôlées de sorte à obtenir des informations sur leur influence sur la variable d’intérêt. Prenons l’exemple d’une entreprise pharmaceutique intéressée par une étude permettant de connaître l’effet d’un nouveau médicament sur la pression artérielle. La pression artérielle est la variable d’intérêt de l’étude. Le dosage du nouveau médicament est une autre variable, supposée avoir un effet sur la pression artérielle. Pour obtenir des données concernant l’effet de ce nouveau médicament, les chercheurs sélectionnent un échantillon d’individus. Le dosage du nouveau médicament est contrôlé : chaque groupe d’individus reçoit un dosage différent. Les données sur la pression artérielle, avant et après traitement, sont collectées pour Date : Nom du serveur : Nos clients sont notre première priorité. Veuillez s’il vous plaît prendre quelques instants pour renseigner ce questionnaire, afin de nous permettre de mieux répondre à vos souhaits. Vous pouvez remettre cette carte à notre hôtesse en sortant ou la renvoyer par courrier électronique. Merci. Service concerné Qualité globale Accueil par le maître d’hôtel Déroulement du service Service global Professionnalisme Connaissance du menu Gentillesse Sélection de vins Sélection des menus Qualité des plats Présentation des plats Rapport qualité-prix Excellent Bon Satisfaisant Insatisfaisant Quels commentaires pouvez-vous faire pour nous aider à améliorer notre service ? Merci, nous apprécions vos commentaires. L’équipe du Chops City Grill. Figure 1.4 Sondage d’opinion auprès des clients du restaurant Chops City Grill de Naples, dans l’État de Floride Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Études statistiques 17 chaque groupe. L’analyse statistique des données expérimentales permettra de déterminer l’influence du nouveau médicament sur la pression artérielle. Les études sur les fumeurs et les non-fumeurs sont des études empiriques puisque les chercheurs ne déterminent ou ne contrôlent pas qui fume et qui ne fume pas. Les études statistiques non-expérimentales, ou empiriques, ne tentent pas de contrôler les variables d’intérêt. Un sondage est le type le plus courant d’études empiriques. Par exemple, lors d’un sondage en face-à-face, on identifie d’abord les questions. Ensuite un questionnaire est établi et distribué à un échantillon d’individus. Certains restaurants utilisent des études empiriques pour connaître l’opinion de leurs clients sur la qualité des menus, du service, de l’ambiance, etc. La figure 1.4 présente le questionnaire utilisé par le restaurant Chops City Grill de Naples, en Floride. Les clients interrogés doivent évaluer 12 variables : la qualité globale, l’accueil par le maître d’hôtel, le service, etc. Les catégories de réponse – excellent, bon, moyen, satisfaisant et insatisfaisant – permettent aux propriétaires du Chops City Grill de maintenir un haut niveau de qualité des plats proposés et du service. Quiconque désire utiliser des données et des analyses statistiques en tant qu’outil d’aide à la décision, doit être conscient du coût et du temps que nécessite l’obtention des données. L’utilisation de sources existantes est souhaitable lorsque les données doivent être obtenues rapidement. Si les données importantes ne sont pas disponibles auprès d’une source existante, le temps et les coûts d’acquisition des données doivent être évalués. Dans tous les cas, il est important de considérer la contribution de l’analyse statistique dans le processus de prise de décision. Le coût d’acquisition des données et de l’analyse qui en découle, ne doit pas excéder les gains générés par l’utilisation de l’information pour prendre une meilleure décision. 1.4.1 Erreurs dans la collecte des données Il convient de toujours avoir à l’esprit que des erreurs peuvent être commises lors de la collecte des données. Utiliser des données erronées peut s’avérer pire que de ne pas en utiliser. Une erreur dans l’acquisition des données intervient lorsque la valeur inscrite ne correspond pas à la vraie valeur, c’est-à-dire celle qui aurait été obtenue avec une procédure d’acquisition correcte. De telles erreurs peuvent survenir de différentes manières. Par exemple, un enquêteur peut faire une erreur d’enregistrement, et enregistrer 42 ans au lieu de 24 ans, ou bien la personne interrogée peut mal interpréter la question et donner une réponse incorrecte. Les analystes expérimentés prennent grand soin de ne pas faire d’erreurs dans la collecte et l’enregistrement des données. Des procédures de détection des incohérences existent. Par exemple, l’attention de l’analyste est attirée lorsque le traitement d’un questionnaire révèle qu’un individu âgé de 22 ans a 20 années d’expérience professionnelle. Les analystes réexaminent également les données pour lesquelles on constate des valeurs inhabituellement élevées ou faibles, pouvant être dues à des erreurs de collecte. Dans le chapitre 3, nous présenterons quelques méthodes utilisées par les statisticiens, pour identifier ces valeurs « aberrantes ». Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 18 DONNÉES ET STATISTIQUES Les erreurs surviennent souvent au cours de la phase de collecte des données. Utiliser toutes les données disponibles de façon aveugle ou utiliser des données qui n’ont pas fait l’objet de toutes les attentions peut apporter une information trompeuse et conduire à prendre de mauvaises décisions. Ainsi, en prenant soin de collecter des données précises, on améliore le processus décisionnel. 1.5 STATISTIQUES DESCRIPTIVES La plupart des informations statistiques contenues dans les journaux, les magazines, les rapports d’activité de sociétés et autres publications sont des données résumées et présentées sous une forme facilement compréhensible par le lecteur. On appelle de tels résumés sous forme de tableaux, de graphiques ou sous forme numérique, des statistiques descriptives. On se réfère une fois encore à l’ensemble de données relatif aux 60 pays de l’Organisation mondiale du commerce, présenté dans le tableau 1.1. Des statistiques descriptives peuvent être utilisées pour résumer ces données. Par exemple, considérez la variable « Perspective Fitch » qui indique la direction dans laquelle la note du pays pourrait évoluer au cours des deux prochaines années. La perspective Fitch peut être négative, stable ou positive. Le tableau 1.4 présente un résumé sous forme de tableau des données indiquant, pour chaque tendance possible, le nombre pays présentant cette perspective. La figure 1.5 est un résumé graphique de ces mêmes données, sous forme d’un diagramme en barres. Ces types de représentations graphiques et sous forme de tableaux facilitent l’interprétation des données. En se référant au tableau 1.4 et à la figure 1.5, on s’aperçoit que la majorité des notes devraient être stables, 65 % des pays ayant une perspective d’évolution stable de leur note établie par Fitch. Les proportions de perspectives négatives et positives sont similaires, avec légèrement plus de pays ayant une perspective négative (18,3 %) qu’une perspective positive (16,7 %). La figure 1.6 est un résumé graphique des données de la variable quantitative PIB par tête figurant dans le tableau 1.1, sous la forme d’un histogramme. À partir de cet histogramme, il est facile de voir que le PIB par tête des 60 pays est compris entre 0 et 60 000 dollars, les plus fortes concentrations se situant entre 10 000 et 20 000 dollars. Un seul pays a un PIB par tête supérieur à 50 000 dollars. Tableau 1.4 Fréquences et fréquences en pourcentage de la perspective d’évolution de la note Fitch des 60 pays Perspective Fitch Fréquence Fréquence en pourcentage Positive 10 16,7 Stable 39 65,0 Négative 11 18,3 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 19 Statistiques descriptives 70 Fréquence en pourcentage 60 50 40 30 20 10 0 Négative Stable Positive Note Fitch Figure 1.5 Diagramme en barres de la perspective d’évolution de la note Fitch des 60 pays 20 18 16 14 Fréquence 12 10 8 6 4 2 0 0–9,999 10,000– 19,999 20,000– 29,999 30,000– 39,999 40,000– 49,999 50,000– 59,999 PIB par tête Figure 1.6 Histogramme du PIB par tête des 60 pays Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 20 DONNÉES ET STATISTIQUES En plus des présentations sous forme de tableaux et de graphiques, on peut utiliser des statistiques descriptives numériques pour résumer les données. La plus courante est la moyenne. En utilisant les données sur le PIB par tête des 60 pays figurant dans le tableau 1.1, on peut calculer la moyenne en additionnant le PIB par tête des 60 pays et en divisant la somme par 60. Le PIB par tête moyen s’élève à 21 387 dollars. Cette moyenne fournit une mesure de la valeur centrale des données. Dans de nombreux domaines, l’intérêt pour les méthodes statistiques qui peuvent être utilisées pour développer et présenter des statistiques descriptives, continue de croître. Les chapitres 2 et 3 sont consacrés aux méthodes de statistiques descriptives sous forme de tableaux, de graphiques et sous forme numérique. 1.6 INFÉRENCE STATISTIQUE De nombreuses situations requièrent des données relatives à un vaste ensemble d’éléments (individus, sociétés, électeurs, ménages, produits, clients, etc.). À cause de considérations telles que les coûts ou le temps, les données ne peuvent être collectées qu’auprès d’une petite partie du groupe concerné. Le groupe considéré dans son ensemble est désigné par le terme population et la petite partie du groupe, par le terme échantillon. Formellement, on utilise les définitions suivantes. ► Population Une population est l’ensemble de tous les éléments d’intérêt dans une étude particulière. ► Échantillon Un échantillon est un sous-ensemble de la population. Le gouvernement américain effectue un recensement tous les dix ans. Les sociétés d’études de marché réalisent des enquêtes à partir d’échantillons de la population tous les jours. Le processus d’enquête pour collecter des données relatives à la population entière est appelé recensement. Le processus d’enquête pour collecter des données relatives à un échantillon est appelé enquête d’échantillonnage. L’apport majeur des statistiques réside dans la possibilité de faire des estimations et des tests d’hypothèses sur les caractéristiques d’une population à partir d’un échantillon, au travers d’un processus dit d’inférence statistique. Comme exemple d’inférence statistique, considérons l’étude faite par Norris Electronics. La société Norris fabrique des ampoules à forte intensité, utilisées dans de nombreux produits électriques. Dans le but d’accroître la durée de vie des ampoules, le groupe de recherche a mis au point un nouveau filament. Dans ce cas, la population Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 21 Inférence statistique correspond à l’ensemble des ampoules produites avec le nouveau filament. Pour évaluer les performances de ce nouveau filament, 200 nouvelles ampoules ont été fabriquées et testées. Les données collectées à partir de cet échantillon indiquent le nombre d’heures d’éclairage obtenues avec chaque ampoule avant que le filament ne grille. Les données de l’échantillon sont reportées dans le tableau 1.5. Supposons que Norris veuille utiliser les données de l’échantillon pour estimer le nombre moyen d’heures d’éclairage de toutes les ampoules qui pourraient être fabriquées avec le nouveau filament. En additionnant les 200 valeurs du tableau 1.5 et en divisant le total par 200, on obtient la durée de vie moyenne des ampoules de l’échantillon : 76 heures. La figure 1.7 résume sous forme de graphique le processus d’inférence statistique utilisé par Norris Electronics. Quand les statisticiens utilisent un échantillon pour estimer une caractéristique de la population, ils définissent également la qualité ou précision de l’estimation. Pour l’exemple de Norris, le statisticien doit préciser que l’estimation ponctuelle de la durée de vie moyenne des ampoules de la population est de 76 heures avec une marge d’erreur de plus ou moins 4 heures. Ainsi, l’intervalle d’estimation de la durée de vie moyenne de toutes les ampoules produites est compris entre 72 et 80 heures. Le statisticien peut Tableau 1.5 Nombre d’heures d’éclairage avant que l’ampoule ne grille pour un échantillon de 200 ampoules de Norris Electronics 107 73 68 97 76 79 94 59 98 57 54 65 71 70 84 88 62 61 79 98 66 62 79 86 68 74 61 82 65 98 62 116 65 88 64 79 78 79 77 86 74 85 73 80 68 78 89 72 58 69 92 78 88 77 103 88 63 68 88 81 75 90 62 89 71 71 74 70 74 70 65 81 75 62 94 71 85 84 83 63 81 62 79 83 93 61 65 62 92 65 83 70 70 81 77 72 84 67 59 58 78 66 66 94 77 63 66 75 68 76 90 78 71 101 78 43 59 67 61 71 96 75 64 76 72 77 74 65 82 86 66 86 96 89 81 71 85 99 59 92 68 72 77 60 87 84 75 77 51 45 85 67 87 80 84 93 69 76 89 75 83 68 72 67 92 89 82 96 77 102 74 91 76 83 66 68 61 73 72 76 73 77 79 94 63 59 62 71 81 65 73 63 63 89 82 64 85 92 64 73 Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Norris 22 DONNÉES ET STATISTIQUES 1. La population correspond à toutes les ampoules fabriquées avec le nouveau filament. La durée de vie moyenne est inconnue. 2. Un échantillon de 200 ampoules est fabriqué avec le nouveau filament. 4. La valeur de la moyenne de l’échantillon est utilisée pour estimer la moyenne de la population. 3. Les données de l’échantillon fournissent une durée de vie moyenne de 76 heures par ampoule. Figure 1.7 Le processus d’inférence statistique dans le cadre de l’exemple de Norris Electronics également indiquer son degré de confiance quant au fait que l’intervalle [72 ; 80] contienne la moyenne de la population. 1.7 INFORMATIQUE ET ANALYSE STATISTIQUE Dans la mesure où l’analyse statistique implique souvent de larges ensembles de données, les analystes utilisent fréquemment des logiciels informatiques pour ce travail. Par exemple, calculer la durée de vie moyenne des 200 ampoules dans l’exemple de Norris Electronics (cf. tableau 1.5) pourrait s’avérer pénible sans un ordinateur. Pour faciliter l’usage de l’informatique, les grands ensembles de données présents dans cet ouvrage sont disponibles en ligne. Les fichiers de données sont téléchargeables à la fois au format Minitab et au format Excel. En outre, l’outil StatTools d’Excel peut être téléchargé à partir du site. Les instructions pour exécuter les procédures statistiques en utilisant Minitab, Excel et StatTools sont fournies en annexe des chapitres. 1.8 TRAITEMENT DES DONNÉES Grâce aux lecteurs de cartes magnétiques, aux scanners des codes-barres et aux terminaux de vente, la plupart des sociétés obtiennent de nombreuses informations quotidiennes. Même pour un petit restaurant local qui utilise des tablettes tactiles pour enregistrer les commandes et délivrer l’addition, la quantité de données collectées peut être importante. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Traitement des données 23 Pour les grandes enseignes de la distribution, le volume de données collectées est tel qu’il est difficile de conceptualiser comment exploiter de façon efficace ces données pour améliorer la rentabilité de l’entreprise. Par exemple, les grandes surfaces comme Walmart collectent des données relatives à 20 ou 30 millions de transactions chaque jour, les sociétés de télécommunications comme France Télécom et AT&T acheminent plus de 300 millions d’appels par jour et Visa gère 6 800 transactions de paiement par seconde, soit approximativement 600 millions de transactions par jour. Stocker et exploiter ces données est une tâche titanesque. Le terme « stockage de données » est utilisé pour faire référence au processus de collecte, stockage et gestion des données. La puissance des ordinateurs et les outils de collecte des données ont atteint un tel niveau de développement qu’il est maintenant envisageable de stocker et de traiter des quantités très importantes de données en quelques secondes. L’analyse de données contenues dans une banque de données peut conduire à des changements de stratégie et à une augmentation des profits. Les études relatives au traitement des données visent à développer des méthodes permettant de tirer des informations utiles à la prise décision de ces grandes bases de données. En associant des procédures statistiques, mathématiques et informatiques, les analystes exploitent les banques de données pour les convertir en informations utiles. Kurt Thearling, un pionnier dans ce domaine, définit le traitement des données comme « l’extraction automatisée d’informations prédictives à partir de grandes bases de données ». Les deux mots clés dans la définition de M. Thearling sont « automatisée » et « prédictives ». Les systèmes de traitement des données les plus efficaces utilisent des procédures automatisées pour extraire de l’information des données en utilisant seulement les requêtes, générales voire vagues, formulées par l’utilisateur. Et les logiciels de traitement des données automatisent le processus de découverte de l’information prédictive cachée, ce qui, par le passé, nécessitait des heures d’analyse. Les applications majeures du traitement des données ont été développées par des sociétés commerciales (orientées vers les clients), telles que les commerces de détail, les organismes financiers et les opérateurs de télécommunication. Le traitement des données a été utilisé avec succès pour aider des vendeurs tels qu’Amazon et Barnes & Noble à prédire quels produits connexes les consommateurs sont susceptibles d’acheter en fonction de leurs achats passés. Grâce à cela, lorsqu’un client se connecte au site Internet d’une société et achète un produit, des fenêtres pop-up l’alertent de l’existence de produits complémentaires susceptibles de l’intéresser. Le traitement des données peut également être utilisé pour identifier les clients qui sont susceptibles de dépenser plus de 20 dollars lors d’un achat. Ces clients pourront alors bénéficier d’offres de réduction envoyées par e-mail ou par courrier, pour les inciter à renouveler leurs achats avant une certaine date. Le traitement des données est une technologie qui repose sur des méthodes statistiques telles que les régressions multiples, les régressions logistiques et la corrélation. Il combine de façon originale toutes ces méthodes et les technologies informatiques pour optimiser le traitement des données. Un investissement significatif en temps et en argent est nécessaire pour créer des logiciels de traitement des données similaires à ceux Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 24 DONNÉES ET STATISTIQUES développés par des entreprises telles que Oracle, Teradata et SAS. Les concepts statistiques introduits dans cet ouvrage vous seront utiles pour comprendre la méthodologie statistique utilisée par les logiciels de traitement des données et vous permettront de mieux comprendre l’information statistique qui est fournie. Les méthodes statistiques jouent un rôle important dans le traitement des données, à la fois en termes de découverte des relations entre les données et de prédiction des résultats futurs. Cependant, une étude approfondie des techniques et méthodes de traitement des données est hors du champ de cet ouvrage. Dans la mesure où les modèles statistiques jouent un rôle important dans le développement des modèles prédictifs, les statisticiens doivent prendre un certain nombre de précautions pour correctement formuler ces modèles statistiques. Par exemple, la question de la fiabilité du modèle est une question primordiale. Un modèle statistique qui fonctionne bien pour un échantillon particulier de données ne pourra pas nécessairement être appliqué de façon fiable à d’autres jeux de données. Une des approches statistiques courantes pour évaluer la fiabilité d’un modèle consiste à diviser l’ensemble des données d’échantillon en deux sous-ensembles : un sous-ensemble de données d’entraînement et un sous-ensemble de données de test. Si le modèle développé en utilisant les données d’entraînement est capable de prédire avec précision les données de test, on dit que le modèle est fiable. Un avantage qu’a le traitement des données par rapport aux statistiques classiques, réside dans la quantité astronomique de données disponibles. Cela permet au logiciel de traitement des données de séparer l’ensemble des données de façon à tester la fiabilité d’un modèle développé sur un sous-ensemble de données d’entraînement sur d’autres données. En ce sens, la séparation de l’ensemble des données en plusieurs sousensembles permet de développer des modèles, d’établir des relations entre les variables et ensuite d’observer rapidement si ces modèles et relations sont reproductibles et valables avec des données différentes. Le risque en ayant tant de données réside dans la détermination d’association et de relation de cause à effet qui n’existent pas réellement. Une interprétation prudente des résultats obtenus via les procédures de traitement des données et des tests supplémentaires aideront à éviter cet écueil. 1.9 GUIDE DES BONNES PRATIQUES STATISTIQUES On doit s’efforcer d’avoir un comportement éthique exemplaire dans tout ce que l’on fait. Des questions éthiques surgissent en statistiques à cause du rôle important des statistiques dans la collecte, l’analyse, la présentation et l’interprétation des données. Dans une étude statistique, des comportements non-éthiques peuvent prendre différentes formes : échantillonnage inapproprié, analyse biaisée des données, développement de graphiques trompeurs, utilisation de statistiques descriptives inappropriées et/ou interprétation biaisée des résultats statistiques. Nous vous encourageons, dans votre propre travail statistique, à être équitable, minutieux, objectif et neutre, à la fois lorsque vous collectez des données, effectuez des Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. Guide des bonnes pratiques statistiques 25 analyses, faîtes des présentations orales et rédigez des rapports. En tant que consommateur de statistiques, vous devez également être conscient de la possibilité que certains statisticiens n’aient pas un comportement éthique. Lorsque vous êtes confrontés à des statistiques dans les journaux, à la télévision, sur Internet, etc., il est judicieux d’avoir un certain recul sur ces informations, de toujours tenir compte des sources, du but et de l’objectivité des statistiques fournies. L’association américaine de statistiques, la principale organisation statistique professionnelle des États-Unis, a rédigé un rapport intitulé Ethical Guidelines for Statistical Practice2. Ce guide a vocation à aider les statisticiens à travailler de façon éthique et responsable. Le rapport contient 67 recommandations organisées en huit items : professionnalisme ; responsabilités vis-à-vis des commanditaires, clients et employeurs ; responsabilités lors des publications et témoignages ; responsabilités vis-à-vis des sujets de recherche ; responsabilités vis-à-vis de l’équipe de recherche ; responsabilité vis-à-vis des autres statisticiens ; responsabilités relatives aux allégations de mauvaises conduites ; et responsabilités des organisations, des individus, des avocats et autres clients qui emploient des statisticiens. L’une des recommandations éthiques dans le domaine du professionnalisme soulève la question de la conduite de tests multiples jusqu’à ce que le résultat désiré soit obtenu. Considérons un exemple. Dans la section 1.5, nous avons évoqué un test statistique effectué par Norris Electronics impliquant un échantillon de 200 ampoules à haute intensité fabriquées avec un nouveau filament. La durée de vie moyenne de l’échantillon, 76 heures, fournit une estimation de la durée de vie moyenne de toutes les ampoules fabriquées avec le nouveau filament. Cependant, puisque Norris a sélectionné un échantillon d’ampoules, il est raisonnable de supposer qu’un autre échantillon aurait fourni une durée de vie moyenne différente. Supposez que la direction de Norris ait espéré que les résultats de l’échantillon lui permettraient de déclarer que la durée de vie moyenne des nouvelles ampoules est d’au moins 80 heures. Supposez par ailleurs que la direction de Norris décide de poursuivre l’étude en fabriquant et en testant des échantillons différents de 200 ampoules fabriquées avec le nouveau filament jusqu’à ce qu’une moyenne d’échantillon d’au moins 80 heures soit obtenue. Si l’étude est répétée un nombre suffisant de fois, un échantillon peut éventuellement – uniquement par chance – fournir le résultat désiré et permettre à Norris de faire une telle déclaration. Dans ce cas, les clients pourraient être amenés à croire (de façon erronée) que le nouveau produit est meilleur que le produit actuel. Clairement, ce type de comportement est non-éthique et représente une mauvaise utilisation des statistiques en pratique. Plusieurs recommandations éthiques dans le domaine des responsabilités et des publications traitent de questions relatives au traitement des données. Par exemple, un statisticien doit tenir compte de toutes les données considérées dans une étude et décrire le (ou les) échantillon(s) réellement utilisé(s). Dans l’étude de Norris Electronics, la durée de vie moyenne pour les 200 ampoules dans l’échantillon originel est de 76 heures ; c’est considérablement moins que les 80 heures ou plus que la direction espérait atteindre. Supposez maintenant qu’après avoir revu les résultats établissant une durée de vie moyenne de 2 Association américaine de statistiques, Ethical Guidelines for Statistical Practice, 1999. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 26 DONNÉES ET STATISTIQUES 76 heures, Norris écarte toutes les observations inférieures ou égales à 70 heures (avant que l’ampoule ne grille), en décrétant que ces ampoules contiennent des imperfections liées à la phase de démarrage du processus de fabrication. Après avoir écarté ces ampoules, la durée de vie moyenne des ampoules restantes dans l’échantillon s’élève à 82 heures. Douteriez-vous d’une déclaration de Norris affirmant que la durée de vie moyenne de ses ampoules est de 82 heures ? Si les ampoules de Norris dont la durée de vie est inférieure ou égale à 70 heures sont écartées dans le but de fournir une durée de vie moyenne de 82 heures, cette mise à l’écart de certaines observations est incontestablement contraire à l’éthique. Mais, même si les ampoules écartées contiennent des imperfections générées par des problèmes survenus au démarrage du processus de fabrication – et, par conséquent, ne devraient pas être incluses dans l’analyse – le statisticien qui effectue l’étude doit tenir compte de toutes les données observées et expliquer comment l’échantillon utilisé a été obtenu. Avoir une autre démarche est potentiellement dangereux et peut constituer un comportement non-éthique de la part à la fois de la société et du statisticien. Une des recommandations du rapport de l’association américaine de statistiques stipule que les statisticiens doivent éviter toute tendance à orienter le travail statistique vers des résultats prédéterminés. Ce type de pratique non éthique est souvent observé lorsque des échantillons non représentatifs sont utilisés pour établir des affirmations. Par exemple, dans de nombreux États américains, fumer dans les restaurants est interdit. Supposez qu’un lobbyiste de l’industrie du tabac interroge des personnes dans les restaurants où fumer est autorisé, dans le but d’estimer le pourcentage de personnes en faveur du tabac dans les restaurants. Les résultats de l’échantillon montrent que 90 % des personnes interrogées sont favorables au tabac dans les restaurants. En se basant sur les résultats de cet échantillon, le lobbyiste affirme que 90 % des personnes qui fréquentent des restaurants sont favorables au tabac dans les restaurants. Dans ce cas, on peut rétorquer que n’échantillonner que les personnes fréquentant des restaurants où fumer est autorisé, biaise les résultats. Si seuls les résultats d’une telle étude sont rapportés, les lecteurs qui ne connaissent pas les détails de l’étude (c’est-à-dire que l’échantillon n’a été collecté que dans les restaurants autorisant de fumer) peuvent être abusés. Le contenu du rapport de l’association américaine de statistiques est large et inclut des recommandations éthiques qui sont appropriées non seulement pour un statisticien mais aussi pour les consommateurs de statistiques. Nous vous encourageons à lire ce rapport pour mieux appréhender les questions d’éthique et mettre en application ces principes éthiques lorsque vous ferez vos propres analyses. RÉSUMÉ Les statistiques sont l’art et la science de collecter, analyser, présenter et interpréter des données. Pratiquement tous les étudiants en économie ou en commerce suivent des cours de statistique. Nous avons débuté ce chapitre par une présentation des applications statistiques usuelles en économie et dans le domaine commercial. Statistiques pour l'économie et la gestion © DeBoeck. Reproduction interdite. 27 Glossaire Les données sont les faits et les chiffres qui sont collectés et analysés. Il existe quatre échelles de mesure utilisées pour obtenir des données sur une variable particulière : nominale, ordinale, card