Description des données - Cours 1, Chapitre 1 PDF
Document Details
Uploaded by BriskKazoo9341
Université de Montréal
Tags
Related
- Méthodes d'analyses quantitatives CRI 1200 PDF
- Étude Méthodologique PDF
- Cours de statistiques PDF
- Méthodes Quantitatives 1: Production des données (MQ1) - Université Saint-Louis Bruxelles - PDF
- Présentation du traitement d'une variable qualitative MSH (statistique) PDF
- Méthodes Quantitatives 1: Production des données, Gogo 2023-2024 (BPOLS1330) PDF
Summary
Ce document présente les concepts fondamentaux de la description des données en statistique. Il explique la différence entre les statistiques descriptives et inférentielles, et détaille comment les données quantitatives sont utilisées en statistiques. Le document se réfère également à l’organisation des bases de données et à l’importance des variables et des constantes en analyse statistique. Les exemples incluent l’analyse de données sur des joueurs de hockey et des concepts de variables dépendantes et indépendantes.
Full Transcript
Page laissée blanche CHAPITRE 1 LA DESCRIPTION DES DONNÉES Les statistiques sont un inventaire de techniques et de procédures qui per- mettent d’organiser et de faire le sommaire d’une masse d’informations afin d’en dégager des conclusions utiles à la comp...
Page laissée blanche CHAPITRE 1 LA DESCRIPTION DES DONNÉES Les statistiques sont un inventaire de techniques et de procédures qui per- mettent d’organiser et de faire le sommaire d’une masse d’informations afin d’en dégager des conclusions utiles à la compréhension d’un phéno- mène. LA DESCRIPTION ET L’INFÉRENCE EN STATISTIQUE Les statistiques se divisent en deux branches, complémentaires et inter- reliées : celles qui permettent une description des informations ; et celles qui permettent, à partir de ces descriptions, de faire des inférences. Les sta- tistiques descriptives font le sommaire et simplifient l’information dans le but de la clarifier et de révéler ses tendances lourdes. L’inférence statistique est une série de procédures qui se servent de ces descriptions pour tirer des conclusions plus générales sur le phénomène à l’étude. Tous les phénomènes mesurés peuvent être analysés statistiquement, à condition que l’information soit exprimée numériquement. C’est donc dire que les statistiques ne doivent utiliser que des informations quantitatives. 16 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Données quantitatives Nous avons tous l’habitude de mesurer les choses en nous servant de chiffres. Notre âge, notre poids, le montant de nos dettes, le nombre d’enfants dans notre famille ou notre température corporelle peuvent tous être mesurés quantitativement. Les attitudes, les opinions, les croyances, la personnalité et les comportements peuvent aussi être mesu- rés quantitativement. En principe, on se sert d’un questionnaire comme instrument de mesure. Chaque réponse possible à une question est décrite par un chiffre. Par exem- ple, dans un questionnaire qui mesure la satisfaction au travail, on pourrait demander aux employés d’une compagnie d’indiquer leur degré d’accord ou de désaccord avec des phrases telles que : « Aller au travail m’est très désagréable », « Si je le pouvais, je donnerais ma démission aujourd’hui », etc. Les réponses possibles sont : « Totalement en accord » (indexé par le chiffre 1), « Plutôt en accord » (chiffre 2), « Ni en accord ni en désaccord » (chiffre 3), « Plutôt en désaccord » (chiffre 4), et « Totalement en désaccord » (chiffre 5). Ainsi, les personnes ayant plus de satisfaction au travail auraient tendance à être en désaccord avec ces énoncés et, par conséquent, fourniraient des réponses plus près de 5, alors que les réponses des personnes ayant peu de satisfaction au tra- vail seraient concentrées autour de 1. Ces procédures permettent de « quantifier » les attitudes, de les exprimer numériquement. Ce faisant, il devient possible d’en faire une analyse statistique. Les statistiques que nous allons étudier dans ce livre sont mises à pro- fit pour faciliter la compréhension de phénomènes aussi diversifiés que la croissance économique d’une société, les comportements sociaux, l’efficacité d’une technique chirurgicale, ou même les réactions chimiques. Les cognitivistes utilisent les statistiques pour déduire l’organisation du cerveau et ses liens avec la pensée. Les psychologues font appel aux statis- tiques afin de mieux comprendre les caractéristiques individuelles comme la personnalité, l’intelligence ou le comportement déviant à l’école. Les sociologues s’en servent pour mieux comprendre la violence sociale ou la relation entre les idéologies et l’éducation. Les experts en marketing y recourent afin d’analyser et d’améliorer les stratégies de mise en marché. Dans le monde des affaires, on s’en sert pour planifier les inventaires ou pour établir les marges de profit. Et ce sont les statistiques qui déterminent, en grande partie, les décisions des gouvernements. Nous lisons tous les jours dans les journaux des résultats de sondages. Ces sondages guident, dans une certaine mesure, les décisions concernant les activités des institutions, publiques ou privées, l’impact de ces activités se répercutant sur presque chacun de nous : étudiants, consommateurs, tra- vailleurs. Tous, nous sommes personnellement affectés par les statistiques LA DESCRIPTION DES DONNÉES 17 et un grand nombre de décisions qui nous touchent trouvent leur origine dans le résultat d’une analyse statistique. En analyse statistique, les informations (quantitatives) sont recueillies, organisées et soumises à des procédures arithmétiques. Le résultat final de ces procédés est une simplification de l’information qui permet de déga- ger des tendances afin de mieux comprendre le phénomène étudié et d’en tirer des conclusions utiles. Les statistiques nous permettent de voir la forêt malgré les arbres ! Les analyses statistiques offrent la possibilité de mieux comprendre les caractéristiques des individus (l’intelligence, la sociabilité), des groupes (la performance des équipes ou la compétitivité des entreprises), ou des com- munautés plus larges (le degré de pauvreté dans différents pays, le coût des logements dans différentes villes). La source des données (les indivi- dus, les équipes, les entreprises, les villes, etc.) se nomme le sujet d’analyse ou l’unité d’analyse, ou encore l’observation. Le sujet d’analyse définit donc l’origine de l’information. Les conclusions, par conséquent, s’appliqueront exclusivement à cette source. Ainsi, lorsque nous mesurons la densité des populations dans les villes, le sujet d’analyse est la ville et les conclusions s’appliquent aux villes. Lorsque les informations sont recueillies auprès des individus, le sujet d’analyse est l’individu. Si nous mesurons le comporte- ment des chiens, le sujet d’analyse est le chien. Chaque sujet d’analyse four- nit une ou des observations. Ainsi, lorsque nous analysons l’intention de vote de 1 000 citoyens, nous avons 1 000 observations. L’ORGANISATION D’UNE BANQUE DE DONNÉES POUR L’ANALYSE STATISTIQUE 1 Les informations fournies par les sujets sont généralement organisées sous la forme d’un tableau comprenant des colonnes et des lignes (rangées). Chaque sujet d’analyse (chaque répondant à un sondage par exemple) occupe une ligne du tableau. Les variables (chaque question du sondage) occupent les colonnes. À l’intersection de chaque colonne et de chaque 1. Le site Internet du livre (www.pum.umontreal.ca/ca/fiches/978-2-7606-2113-8.html) contient plusieurs banques de données, y compris celle portant sur les salaires des joueurs de hockey. Un extrait de ce dossier est reproduit au Tableau 1.1. 18 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S rangée, nous trouvons une cellule. C’est dans cette cellule que sera placée la valeur numérique qui sera analysée. Chaque colonne contient une seule variable. Si nous demandons à 10 personnes de fournir une réponse à trois questions, la banque de don- nées comprendra 10 lignes et 3 colonnes. En lisant horizontalement, sur une ligne, nous observons la valeur obtenue par un sujet d’analyse pour cha- que variable. À l’inverse, avec une lecture verticale, le long d’une colonne, nous obtenons la réponse de tous les sujets sur une variable. Par exemple, le Tableau 1.1 présente une banque de données sur les salaires annuels des joueurs de hockey. Chaque ligne du tableau identifie un joueur de hockey spécifique. Chaque colonne définit une variable différente. À l’intersection de chaque rangée et de chaque colonne, nous trouvons une cellule qui indi- que la valeur de la variable X pour le joueur Y. Ainsi, en lisant les colonnes consacrées à l’athlète décrit dans la rangée 1, nous voyons son nom (varia- ble « joueur »), son équipe (variable « équipe »), la position qu’il occupe au jeu (variable « position ») et son salaire annuel (variable « salaire »). Tableau 1.1 Banque de données organisées pour une analyse statistique Joueurs Équipes Position Salaire ($US) Joueur 1 Flames de Calgary G 400 000 Joueur 2 Canadiens de Montréal C 3 300 000 Joueur 3 Predators de Nashville G 900 000 Joueur 4 Sénateurs d’Ottawa G 1 500 000 Joueur 5 Canucks de Vancouver G 425 000 Joueur 6 Avalanches du Colorado C 11 000 000 Joueur 7 Blues de Saint-Louis G 165 000 Il est relativement facile d’organiser des banques de données en se servant de logiciels tels que Word ou Excel, ou de programmes d’analyse statistique spécialisés tels que SPSS ou SAS. L’important est de se souvenir de cette règle : chaque rangée définit un sujet différent et chaque colonne, une variable diffé- LA DESCRIPTION DES DONNÉES 19 rente. Une fois la banque de données construite, en se servant d’un logiciel de traitement de texte (comme le Bloc-notes) ou d’un chiffrier (tel qu’Excel), il est facile de l’importer dans un logiciel d’analyse statistique (tel que SPSS). LES VARIABLES Une variable est une caractéristique que l’on mesure et qui sera soumise à des analyses. On l’appelle variable parce que les sujets d’analyse peuvent lui attribuer des valeurs différentes. L’âge, le sexe, le quotient intellectuel (QI) et la condition sociale, entre autres, sont des variables. Le QI est une variable parce qu’il peut être différent selon les personnes. L’anxiété est une variable puisque certains peuvent être très anxieux, d’autres très calmes et d’autres encore peuvent se situer quelque part entre ces deux extrêmes. Le genre – homme versus femme – est lui aussi une variable. Lorsque toutes ces valeurs sont identiques, la variable prend le nom de constante. Si la variable ne peut prendre qu’une valeur unique, cette varia- ble devient une constante. Par exemple, lorsque nous mesurons le degré de sociabilité des femmes, le sexe, qui est habituellement une variable, devient une constante (toutes les personnes mesurées étant des femmes). Quiz rapide 1.1 Le site Internet du livre contient une banque de données sur les joueurs de la Ligue nationale de hockey (les sujets de cette analyse). Prenez seulement la partie des données qui porte sur les Canucks de Vancouver et identifiez les variables et les constantes. Si vous n’utilisez pas le site WEB, répondez au quiz en vous référant au Tableau 1.1. Les variables indépendantes et les variables dépendantes Les chercheurs ou intervenants qui font de l’expérimentation distinguent les variables indépendantes des variables dépendantes. L’expérimentateur contrôle ou choisit la façon dont la variable indépendante varie afin de déterminer le degré d’impact que cette variable indépendante a sur la varia- ble dépendante. La variable dépendante est la réaction du sujet d’analyse à la variable indépendante. Par exemple, une professeure cherche à détermi- ner si les étudiants réussissent mieux leurs examens lorsqu’elle y convertit 20 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S des questions formulées de façon habituelle en questions humoristiques. Elle prépare alors deux examens, l’un commence par 10 questions humo- ristiques, et l’autre, par 10 questions neutres. La forme d’examen (avec ou sans questions humoristiques) est la variable indépendante (on peut remar- quer qu’il s’agit d’une variable parce que nous avons deux valeurs possibles pour l’examen : humoristique ou non). La note obtenue à l’examen devient la variable dépendante (c’est une variable, parce que les étudiants peuvent obtenir différentes notes, et elle est dépendante, parce que nous posons l’hypothèse que la note obtenue dépend du type d’examen). LES ÉCHELLES DE MESURE Il faut mesurer une variable afin d’en faire l’analyse. Cette mesure consiste à fournir une valeur numérique qui indique la position de l’observation sur la ou les variables. Par exemple, pour mesurer le poids d’une personne, on se sert d’un pèse-personne qui indique une valeur numérique, et cette valeur décrit son poids (Jeanne pèse 50 kg et Harold 70 kg : la variable « poids » contient les valeurs « 50 » et « 70 »). Pour les résultats d’une course de che- vaux, la mesure numérique est définie par l’ordre d’arrivée : on attribue la valeur 1 au cheval le plus rapide, 2 au suivant, etc. Dans ce cas, la variable « course » est composée d’observations qui indiquent l’ordre d’arrivée. La signification des valeurs numériques que nous attribuons aux différents types de variables n’est pas toujours la même : obtenir 1 % à un « examen » n’est pas la même chose que d’être 1er de classe à la variable « résultat », même si le même code numérique (« 1 ») est attribué aux deux valeurs ! Les variables peuvent contenir différents types d’informations. Nous appelons le type d’informations l’« échelle » de mesure. Il existe quatre types d’échelles de mesure : nominale, ordinale, à intervalles et de rapport. Il est important de reconnaître l’échelle de mesure de chaque variable, car les procédures statistiques utilisables en dépendent. Les variables (échelles) nominales Certaines variables ne peuvent qu’indiquer (nommer) la catégorie à laquelle chaque observation appartient. Ces variables s’appellent ainsi des variables LA DESCRIPTION DES DONNÉES 21 nominales (ou variables catégorielles). Le « prénom » est une variable nomi- nale qui est elle-même composée d’un grand nombre de catégories, cha- cune décrivant un nom différent. La couleur des yeux est une autre variable nominale. Puisqu’il n’existe qu’un nombre limité de couleurs, cette variable nominale sera composée d’un nombre moindre de catégories que la variable nominale « prénom ». L’origine ethnique, la ville de naissance ou le champ d’études sont d’autres variables qui se mesurent sur des échelles nominales. Chaque observation d’une variable nominale n’appartient obligatoire- ment qu’à une seule catégorie : par exemple, pour la mesure du genre, une variable nominale dichotomique (ayant deux catégories), chaque observa- tion ne peut prendre que l’une ou l’autre de deux valeurs : « femme » ou « homme », mais pas les deux. Par contre, la religion est une variable nomi- nale multichotomique (ayant plusieurs catégories), car elle peut conte- nir beaucoup plus de catégories : on peut être catholique, juif, protestant, musulman, athée, etc. Il est souvent pratique d’identifier les catégories d’une variable nominale par des codes numériques (yeux bleus = 1, yeux verts = 2, etc.). La variable nominale servant exclusivement à identifier la catégorie à laquelle chaque observation appartient, ses différentes valeurs ne représentent que des étiquettes, des codes numériques. Le chiffre qui code chaque valeur de la variable nominale est arbitraire – nous pourrions inscrire « 17 » et « 145 » pour catégoriser les personnes aux yeux bleus et celles aux yeux verts pour la variable « couleur des yeux ». Par conséquent, les informations conte- nues dans les variables nominales n’ont aucune propriété mathématique. Ces valeurs ne peuvent être ni soustraites ni additionnées et, bien sûr, nous ne pouvons pas calculer leur moyenne. Puisque les valeurs d’une variable n’ont pas de signification mathématique particulière, nous ne pouvons que compter le nombre de répondants qui se situent dans chacune des catégo- ries. Par exemple, la variable nominale « intention de vote à la prochaine élection » pourrait contenir quatre catégories : les partis politiques Rouge, Vert, Jaune et Bleu. Règle générale, l’analyse statistique pour cette varia- ble consistera exclusivement à compter le nombre (ou la proportion) de répondants qui entendent voter pour chaque parti. Puisque la variable nominale identifie les catégories, il importe, lorsque nous codons les valeurs d’une variable nominale, d’associer les observa- 22 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S tions à la bonne catégorie. Pour ce faire, il faut respecter les deux règles sui- vantes : a) la même valeur numérique est attribuée à toutes les observations qui appartiennent à la même catégorie nominale (les fumeurs reçoivent le code « 1 » et les non-fumeurs « 2 ») ; b) une observation qui appartient à une catégorie de la variable ne peut appartenir à une autre catégorie (une personne qui fume occasionnellement n’appartient ni à la catégorie 1 ni à la catégorie 2 ; pour l’analyser, il nous faudra la définir par une autre éti- quette, par exemple la valeur « 3 »). Quiz rapide 1.2 Vous devez coder la couleur des yeux de 1 000 personnes. Vous établissez les catégories « bleus = 1 », « bruns = 2 » et « verts = 3 ». Une personne a un œil bleu et l’autre vert. Comment allez-vous coder les yeux de cet individu ? Les variables (échelles) ordinales Les variables ordinales permettent de mesurer la position de chaque obser- vation par rapport aux autres observations sur une variable. Cette position se nomme le rang. Le résultat obtenu à une course de chevaux est mesuré sur une échelle ordinale, car ce qui importe est l’ordre d’arrivée des che- vaux, leurs rangs respectifs. Ainsi, la valeur « 1 » est attribuée au cheval qui traverse le premier la ligne d’arrivée, la valeur « 2 » au suivant, etc. Dans une course comprenant 8 chevaux, le dernier cheval obtient la valeur « 8 » sur la mesure indiquant sa position (par rapport à celles des autres chevaux) au fil d’arrivée. Contrairement aux variables nominales, le chiffre numérique attribué à chaque observation n’est pas arbitraire, mais a une signification. Cette signification représente la position de chaque observation relative aux autres observations. Ainsi, aux Jeux olympiques, nous savons que le nageur qui gagne la médaille d’or a nagé plus vite que celui qui a obtenu la médaille d’argent, et que le médaillé de bronze est moins rapide que les deux autres. Les codes numériques que nous assignons (1, 2 et 3) repré- sentent une différence réelle : l’athlète qui obtient la valeur 1 à la variable « résultat » a nagé plus vite que tous ses compétiteurs. Les variables ordinales ne sont cependant pas en mesure de déterminer l’ampleur des différences entre les observations. Ainsi, nous ne savons pas LA DESCRIPTION DES DONNÉES 23 si le médaillé d’or a gagné la course avec une longue ou une très courte avance sur les autres médaillés. Techniquement, nous disons que les varia- bles ordinales indiquent le rang, mais elles n’indiquent pas la magnitude des différences entre les rangs. Par conséquent, avec une mesure ordinale, la dif- férence entre le rang 1 et le rang 2 n’est pas nécessairement égale à la diffé- rence entre le rang 2 et le rang 3. Il existe de nombreuses situations où l’utilisation de variables ordina- les est nécessaire. Quand ils sélectionnent des candidats, les employeurs les mettent en rang : celui que l’on considère le plus apte à remplir le poste reçoit le rang 1, le suivant le rang 2, etc. On procède de la même façon dans les universités lorsqu’il faut sélectionner les étudiants, particulièrement pour les programmes d’études de deuxième et troisième cycles, qui sont très contingentés. Les Nations Unies produisent un rapport annuel décrivant la qualité de vie dans différents pays. On mesure un ensemble de caractéris- tiques dans chaque pays, comme l’espérance de vie, le revenu moyen et le niveau de chômage, afin de produire une valeur globale indexant la qualité de vie pour chaque pays. Le pays qui obtient la valeur la plus forte obtient le rang 1, ce qui indique que ce pays offre la meilleure qualité de vie. Naturel- lement, comme il s’agit d’une mesure ordinale, lorsque le Canada obtient le premier rang, on ne sait pas si la qualité de vie au Canada est légèrement ou fortement supérieure aux pays qui obtiennent les rangs 2, 3 ou 20 ! Quiz rapide 1.3 Trois étudiants obtiennent les résultats suivants à leur examen de statistique : Paul = 50 %, Marie = 80 %, Julie = 80,4 %. Indiquez la performance de chacun sur une échelle ordinale. Les variables (échelles) à intervalles Les variables à intervalles (ou variables relatives) sont souvent utilisées pour mesurer des phénomènes en sciences humaines. Le psychopédagogue qui mesure le niveau d’intelligence (le QI) des élèves, le psychologue qui mesure la personnalité, l’entreprise qui mesure le degré de satisfaction de la clientèle ou le psychiatre qui étudie le stress se servent de variables à intervalles. Les variables à intervalles mesurent non seulement la position relative de chaque 24 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S observation, mais indiquent aussi l’ampleur des différences entre elles. Ainsi, les QI de Peter, Paul et Marie sont respectivement de 95, 100 et 120. Bien sûr, Marie occupe le rang 1, Paul le rang 2 et Peter le rang 3, mais parce que le QI est une mesure à intervalles, nous mesurons aussi la magnitude des différen- ces entre ces rangs. Ainsi, nous pouvons conclure que l’écart entre le QI de Marie et celui de Paul (20) est plus grand que celui entre Peter et Paul (5). Les valeurs d’une mesure à intervalles contiennent plus d’informations que ne le font les valeurs des échelles ordinales et des échelles nominales. La grande majorité des variables psychologiques sont des variables à intervalles : un psychologue est en mesure d’indiquer non seulement si quelqu’un est moins anxieux que sa mère, mais s’il l’est beaucoup ou légèrement moins. Les variables à intervalles souffrent néanmoins d’une limite importante : elles n’ont pas de point zéro. La valeur « 0 » existe lorsque l’absence totale de la caractéristique mesurée est possible. L’absence d’un zéro absolu pour certaines mesures apparaît lorsque cette valeur est impossible. Par exem- ple, avec la mesure de la personnalité (intervalle), il n’existe pas de valeur « 0 », car l’absence totale de personnalité est inconcevable. Similairement, l’absence totale d’intelligence n’existe pas (même si vous avez cru la consta- ter chez certains politiciens !). Comme nous n’avons pas de point zéro, il n’est, par conséquent, pas possible de calculer des ratios entre deux valeurs. Ainsi, il est impossible de conclure qu’une personne ayant un QI de 120 est deux fois plus intelligente qu’une personne ayant un QI de 60 (bien qu’arithmétiquement 120 soit dans un ratio de 2 pour 1 par rapport à 60). La mesure de la chaleur en degrés Celsius (°C) ou Fahrenheit (°F) est une mesure à intervalles. S’il fait 10 °C lundi, 15 °C mardi et 30 °C mer- credi, nous pouvons conclure que la température a davantage augmenté de mardi à mercredi qu’elle ne l’a fait entre lundi et mardi. Il serait faux de conclure qu’il fait deux fois plus chaud mercredi que mardi, car une tem- pérature de zéro ne signifie pas une absence totale de chaleur (sinon les températures de –10 °C ou –20 °F n’existeraient pas). L’échelle de tempéra- ture Kelvin, en revanche, n’est pas une mesure à intervalles, car elle inclut une valeur « 0 » qui indique une absence absolue de chaleur. Lorsqu’une variable contient un vrai point zéro, celui-ci indiquant l’absence totale de la caractéristique, l’information qu’elle contient est mesurée sur une échelle de rapport (dont nous discutons plus loin). LA DESCRIPTION DES DONNÉES 25 Les mesures psychologiques sont souvent prises avec des échelles linéai- res. L’encadré au début du chapitre en donne un exemple. Lorsque nous demandons au répondant d’indiquer son degré d’accord ou de désaccord avec une phrase déclarative, nous nommons ce type d’échelle « échelle de Likert ». Il existe différentes variantes de cette échelle. Par exemple, nous pourrions poser la question suivante : « Jusqu’à quel point êtes-vous satisfait de votre cours ? » Le répondant choisit la réponse qui correspond le mieux à son opinion : 1 = totalement satisfait ; 2 = satisfait ; 3 = ni satisfait ni insa- tisfait ; 4 = insatisfait ; 5 = totalement insatisfait. À strictement parler, ces échelles sont des échelles ordinales. Mais les psychologues, entre autres, traitent ces réponses comme si elles étaient collectées sur des échelles à intervalles. La raison en est qu’ils présument que la caractéristique mesu- rée (dans ce cas, il s’agit de la satisfaction par rapport à un cours) est une mesure continue où il est possible d’avoir des degrés de satisfaction et non seulement un ordre. Il devient donc possible de dire que Monsieur X est beaucoup plus satisfait que ne l’est Madame Y ; mais parce qu’il s’agit d’une variable à intervalles, il n’est pas possible de dire que Monsieur X est deux fois plus satisfait que Madame Y. Les variables (échelles) de rapport Les variables de rapport (ou échelles absolues) ont toutes les propriétés des échelles à intervalles, mais, en plus, elles ont un point zéro absolu. La plu- part des caractéristiques physiques sont des échelles de rapport : la taille et le montant d’argent en banque sont des échelles de rapport car il est conce- vable d’avoir une absence totale de taille ou d’argent. Les échelles de rap- port nous permettent de dire que quelque chose est deux fois plus grand ou plus petit que quelque chose d’autre. Ainsi, si nous avons 1 000 $ et que notre frère en a 2 000 $, il a deux fois plus d’argent que nous. De manière similaire, si votre équipe a gagné 30 parties l’année dernière et 45 parties cette année, elle a gagné 50 % plus de parties. Enfin, si vous avez obtenu 90 % à votre examen de chimie et que votre copine a obtenu 45 %, vous avez obtenu le double de ses points. Ces conclusions sont valides, car il est possible de ne pas avoir d’argent, de n’avoir gagné aucune partie ou de n’avoir répondu correctement à aucune question à un examen. 26 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Quiz rapide 1.4 Deux étudiants obtiennent les résultats suivants à l’examen de statistique : Paul = 40 %, Marie = 80 %. Est-ce que vous pouvez conclure que Marie a réussi son examen deux fois mieux que Paul ? Les relations entre les diverses échelles de mesure Les échelles de mesure fournissent de l’information au sujet des observa- tions et les quatre types d’échelles sont organisés de manière hiérarchique. Ainsi, l’échelle nominale nous indique exclusivement la catégorie à laquelle chaque observation appartient (A appartient à la catégorie 1, B à la catégo- rie 2) ; l’échelle ordinale nous indique l’ordre entre les observations (A est plus grand que B) aussi bien que la catégorie (A est premier, les autres ne le sont pas) ; l’échelle à intervalles nous donne la différence relative entre les observations (la différence entre A et B est plus grande que la différence entre B et C) en plus de la catégorie et de l’ordre ; et enfin, l’échelle de rap- port nous indique, en plus des trois autres niveaux d’information, la dif- férence absolue entre les mesures (A est deux fois plus grand que B). Le Tableau 1.2 décrit les relations entre les informations fournies par les qua- tre types d’échelles. Les mesures nominales et ordinales prennent parfois le nom d’échelles de type I alors que les mesures à intervalles et de rapport sont parfois appe- lées échelles de type II. Tableau 1.2 Comparaison des échelles de mesure Différence Différence Échelle de mesure Catégorie Ordre relative absolue nominale 9 Type I ordinale 9 9 à intervalles 9 9 9 Type II de rapport 9 9 9 9 LA DESCRIPTION DES DONNÉES 27 Quiz rapide 1.5 Voici les résultats obtenus à un examen de statistique par trois étudiants : Marie = 90 %, Paul = 71 %, Julie = 70 %. Tirez les conclusions nominales, ordinales, à intervalles et de rapport pour ces trois observations. SOMMAIRE DU CHAPITRE Les statistiques aident à tirer des conclusions au sujet d’informations quantitatives qui sont organisées en banque de données. Une information quantitative est une information numérique, et une banque de données est un tableau à double entrée. La banque de données contient les informations que les sujets d’analyse fournissent pour une ou plusieurs variables. Les variables sont les caractéristiques qui sont mesurées et pour lesquelles plu- sieurs réponses sont possibles. Les réponses peuvent être nominales (elles indiquent si le sujet d’analyse détient ou ne détient pas la caractéristique mesurée), ordinales (elles indiquent le rang, la position relative, de chaque observation), à intervalles (elles indiquent la différence relative entre les observations) ou de rapport (elles indiquent la différence absolue entre les observations). Les techniques d’analyse statistique utilisables ne sont pas les mêmes pour les différents types d’échelles de mesure. La plupart des techniques statistiques, y compris celles décrites dans ce livre, exigent que les variables soient à intervalles ou de rapport. Mais il est aussi possible de faire une analyse statistique valide lorsque les données sont de type I. Dans ce cas, il faudra faire appel aux procédures « non paramétriques » qui, elles, sont décrites au chapitre 13 de ce livre. EXERCICES DE COMPRÉHENSION 1. Une caractéristique ou un phénomène pouvant prendre différentes valeurs est a) une constante b) une donnée brute c) une population d) une variable 28 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S 2. Le but de l’inférence statistique est de tirer une conclusion ________ à partir d’une information ________. a) plus générale ; spécifique b) juste ; fausse c) spécifique ; générale d) générale ; générale 3. Déterminer le type d’échelle de ces mesures. a) Âge : ________ b) Ethnie : ________________ c) Résultats d’une course à pied : ________________ d) Quotient intellectuel : ________________ 4. Le regroupement d’individus dans des catégories telles que « faible », « moyen » et « fort » implique quel type d’échelle ? a) Échelle nominale b) Échelle ordinale c) Échelle à intervalles d) Échelle de rapport 5. Une échelle définit la catégorie à laquelle une personne appartient. Il s’agit alors d’une échelle ____________. a) nominale b) ordinale c) à intervalles d) de rapport 6. Transposer une mesure d’une échelle à une autre n’est pas possible dans le cas suivant : a) d’une échelle nominale à une échelle à intervalles b) d’une échelle à intervalles à une échelle ordinale c) d’une échelle de rapport à une échelle nominale d) d’une échelle de rapport à une échelle à intervalles 7. Lorsque l’on dit : « Mario est plus beau que Simon », quel type d’échelle utilise-t-on ? a) Échelle nominale b) Échelle ordinale c) Échelle à intervalles d) Échelle de rapport LA DESCRIPTION DES DONNÉES 29 8. Laquelle de ces mesures nous donne le plus d’informations ? a) L’ordre des chevaux à l’arrivée b) Le nombre d’hommes et de femmes inscrits en pharmacologie c) La température en degrés Celsius d) La distance entre la Terre et les planètes du système solaire 9. Dans une expérience, on augmente le salaire d’un groupe d’em- ployés d’une compagnie alors que le salaire d’un autre groupe d’employés reste inchangé. Ensuite, on examine le degré de produc- tivité des deux groupes d’employés afin de voir si le salaire affecte la productivité. La variable indépendante est ________ et la variable dépendante est _____________. a) ceux qui reçoivent l’augmentation ; ceux qui ne la reçoivent pas b) la productivité ; le salaire c) le salaire ; la productivité d) le salaire ; la satisfaction de ceux qui ne reçoivent pas d’augmentation 30 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Réponses 1. d 2. a 3. a. échelle de rapport ; b. échelle nominale ; c. échelle ordinale ; d. échelle à intervalles 4. c 5. a 6. a 7. b 8. d 9. c CHAPITRE 2 LA DISTRIBUTION DES DONNÉES La distribution simple des données.......................................................................... 34 La distribution groupée des données...................................................................... 35 Comment créer une distribution groupée des données.................. 36 La taille des catégories et leur nombre............................................................ 39 La distribution groupée des données : sommaire des étapes....... 39 La distribution relative des données........................................................................ 39 La distribution cumulative : proportions et pourcentages............ 41 Les représentations graphiques de la distribution des données....... 42 Le graphique des histogrammes.......................................................................... 43 Le polygone des effectifs............................................................................................. 45 Les formes de distribution............................................................................................... 47 La distribution unimodale........................................................................................ 47 La distribution bimodale (ou multimodale).............................................. 48 La distribution symétrique....................................................................................... 48 La distribution asymétrique.................................................................................... 49 Le degré d’aplatissement : leptocurtique et platycurtique.............. 49 La distribution des fréquences : un exemple complet............................... 52 Sommaire du chapitre......................................................................................................... 54 Exercices de compréhension..................................................................................... 55 Page laissée blanche CHAPITRE 2 LA DISTRIBUTION DES DONNÉES La statistique consiste à réduire une grande quantité d’informations à une expression plus simple, afin d’en tirer des renseignements utiles. Le point de départ de ce processus de simplification consiste à simplement recen- ser (compter) le nombre d’observations qui appartiennent à chaque valeur d’une variable. Par exemple, pour examiner le poids d’un groupe d’enfants de dix ans, nous pourrions compter le nombre d’enfants qui pèsent 40 kg, le nombre d’enfants qui pèsent 41 kg, etc. Cette simple procédure statisti- que établit l’effectif, c’est-à-dire la fréquence à laquelle chaque valeur de la variable apparaît dans la banque de données, indiquant ainsi la distribution (c’est-à-dire la répartition) de ces valeurs. Par exemple, nous pourrions dire que 20 % des enfants de dix ans pèsent 35 kg, 30 % en pèsent 40, etc. L’établissement de l’effectif des données et leur distribution représen- tent le point de départ crucial de toutes les analyses statistiques abordées dans ce livre. Dans le présent chapitre, nous voyons les procédures à suivre pour établir et représenter la distribution des données, numériquement et visuellement, à l’aide de graphiques. Ces procédures, puisqu’elles servent à décrire l’information, s’appellent les statistiques descriptives. Ces statisti- ques sont le sujet des cinq premier chapitres. 34 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Le salaire des joueurs de hockey professionnels Un désaccord entre les athlètes et les propriétaires des équipes de hockey de la Ligue nationale de hockey (LNH) a mené à l’annulation complète de la saison de hockey en 2004-2005. Les propriétaires soutenaient que les salaires des joueurs étaient trop éle- vés, tandis que les joueurs, ce qui ne surprit personne, ne partageaient pas ce point de vue. Qui avait raison, les propriétaires ou les joueurs ? Le point de départ pour résoudre cette question se trouve dans la simple description des salaires des joueurs : combien gagnent-ils ? Le fichier NHLSalaire2002-2003 (voir le site Internet du livre : www.pum.umontreal. ca/ca/fiches/978-2-7606-2113-8.html) reproduit les salaires de chacun des 679 athlètes de la LNH en 2002-2003. La banque de données contient un très grand nombre d’infor- mations : on y trouve 679 lignes d’informations (une ligne par joueur) et 5 colonnes (une colonne par variable : le nom du joueur, son prénom, son équipe, sa position au sein de l’équipe et son salaire en 2002-2003), ce qui correspond à un total de 3 395 observa- tions (679 × 5). Il faut reconnaître qu’avec autant d’informations, décrire la situation salariale au sein de la LNH pour s’en faire une idée globale devient quasi impossible (sauf peut-être pour conclure que le salaire du commun des mortels semble, par comparai- son, bien bas !). Comme pour toutes les analyses statistiques, nous commençons le processus de simplification de l’information en compilant la distribution des effectifs, c’est-à-dire le nombre de joueurs de hockey qui se situe à chaque niveau de salaire. LA DISTRIBUTION SIMPLE DES DONNÉES Une fréquence est simplement le décompte du nombre d’observations ayant obtenu une certaine valeur. On appelle aussi cela un effectif. Par exemple, en nous basant sur la banque de données des salaires de la LNH en 2002- 2003, nous notons que le plus bas salaire qu’elle a payé est de 165 000 $US (désormais, dans le présent chapitre, le signe $ représentera des $US). Puis- que aucun autre joueur ne gagne ce salaire, nous notons un effectif de 1 pour le niveau de salaire de 165 000 $. Le salaire suivant est de 280 000 $ et, là encore, une seule personne dans la ligue reçoit ce salaire. Par conséquent, l’effectif pour la valeur 280 000 $ de la variable « salaire » est de 1. Nous poursuivons cette procédure pour chaque valeur (chaque salaire) dans la banque de données. Par exemple, 9 joueurs touchent 350 000 $. L’effectif pour 350 000 $ est donc 9. Nous voyons aussi que le salaire maximal est la modique somme de 11 000 000 $ que touchent deux joueurs. La fréquence du salaire de 11 000 000 $ est, par conséquent, de 2. Nous pouvons mainte- nant comprendre l’avantage de la distribution des effectifs. Elle organise les LA DISTRIBUTION DES D ONNÉES 35 informations que contient la banque de données en regroupant ensemble celles qui sont identiques et permet ainsi d’en réduire le nombre. L’utilisation de la distribution simple des effectifs est tout à fait appro- priée aux sondages sur les intentions de vote, dont on trouve les résultats dans les journaux. Présentés sous forme de tableaux, ces résultats indi- quent le nombre ou (plus généralement) le pourcentage des répondants qui se disent prêts à voter pour l’un ou l’autre des partis politiques. Puisque le nombre de partis politiques est relativement restreint, l’utilisation de la distribution simple représente une technique très efficace pour saisir rapi- dement le degré de popularité de chacun des partis. Quiz rapide 2.1 À partir des données disponibles sur le site Internet (www.pum.umontreal.ca/ca/ fiches/978-2-7606-2113-8.html) : Quelle est la taille de l’effectif lorsque le niveau des salaires est de 2 000 000 $ ? Est-il facile de trouver cette information dans la liste complète des salaires ? LA DISTRIBUTION GROUPÉE DES DONNÉES Souvenons-nous que les statistiques descriptives servent à réduire la masse d’informations afin de pouvoir s’en faire une idée globale. La construction d’une distribution simple des effectifs n’est pas toujours la manière la plus pratique pour faire le sommaire d’une banque de données. Lorsque les valeurs différentes sont nombreuses, la description de la variable devient très détaillée, ce qui complexifie l’interprétation que l’on peut en faire. Il est préférable de simplifier et de réduire davantage la banque de données. La LNH nous offre un bel exemple d’une telle banque de données. Pour décrire la distribution des salaires de ses joueurs, nous avions comme point de départ une matrice contenant 679 rangées d’observations, ce qui est exces- sif pour se faire une idée globale de la distribution des salaires. En calculant les effectifs, nous avons réduit cette masse de données à environ une centaine de lignes, car il y a une centaine de salaires différents dans la LNH. C’est déjà mieux, mais c’est encore trop. En général, pour avoir une idée globale d’un ensemble de données, celui-ci ne doit pas contenir plus d’une vingtaine de catégories. Il nous faut donc réduire le nombre de catégories dans la variable. La distribution groupée des données est alors la procédure à suivre. 36 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S La distribution groupée des données consiste à regrouper dans la même catégorie les observations qui sont proches les unes des autres. Nous éta- blissons maintenant les effectifs des observations qui se trouvent dans cha- cune de ces catégories de valeurs de la variable. Par exemple, pour obtenir le poids des enfants de dix ans, nous pourrions compter le nombre d’en- fants qui pèsent entre 26 et 30 kg, entre 31 et 35 kg, etc. Dans une distribu- tion groupée, chaque catégorie englobe plusieurs valeurs (similaires) de la variable. Pour ce qui est de la LNH, nous pourrions placer dans la même catégorie les joueurs ayant des salaires similaires et établir la fréquence de chaque catégorie. Par exemple, nous pourrions hypothétiquement établir les catégories suivantes : catégorie 1 = salaires se situant entre 0 et 499 999 $, catégorie 2 = entre 500 000 et 999 999 $, etc. Si 20 joueurs gagnent entre 0 et 499 999 $ et si 50 touchent entre 500 000 et 999 999 $, les effectifs grou- pés seraient respectivement de 20 et 50 pour ces deux catégories. La distribution groupée des fréquences contiendra moins de catégo- ries que la distribution simple et, ce faisant, il sera plus facile d’en faire une interprétation. On doit cependant noter qu’en utilisant la distribution groupée, nous sacrifions de l’information : chaque catégorie contient main- tenant plusieurs niveaux de salaires. Ainsi, pour ce qui est des salaires situés entre 0 et 499 999 $, le joueur de hockey qui gagne 499 999 $ se retrouve dans la même catégorie que celui qui gagne 100 000 $, mais dans une caté- gorie de salaires différente de celui qui gagne 500 000 $. La simplification de la banque de données que permet une distribution groupée augmente certes la clarté de l’information, mais elle le fait en sacrifiant des détails. Comment créer une distribution groupée des données Pour construire une distribution groupée des données, nous devons établir une série de catégories, chacune étant définie par un intervalle de valeurs. Un intervalle spécifie la valeur maximale et la valeur minimale des obser- vations qui seront incluses dans la catégorie. La limite supérieure définit la valeur la plus grande de l’intervalle et la limite inférieure, la valeur la plus petite. Par exemple, pour un intervalle regroupant tous les salaires entre 500 000 et 999 999 $, les limites inférieure et supérieure sont de 500 000 et 999 999 $ respectivement. On considère que tous les athlètes qui gagnent LA DISTRIBUTION DES D ONNÉES 37 entre 500 000 et 999 999 $ appartiennent à la catégorie de salaire 500 000- 999 999 $. L’athlète qui gagne 499 999 $ appartient à une autre catégo- rie, soit entre 0 et 499 999 $. La définition de ces limites représente l’étape importante de la construction des distributions groupées des effectifs. La façon de créer une distribution groupée des effectifs est très simple : 1. On décide d’abord du nombre de catégories que l’on veut. Générale- ment, entre 10 et 20 catégories. Mais cette règle n’est pas coulée dans le béton. Pour certaines applications, il est approprié d’en créer plus de 20 ou moins de 10. 2. Ensuite, on calcule la différence entre la plus petite et la plus grande valeur dans la distribution (cette différence, l’étendue de la distribu- tion, est une statistique de base qui est décrite au chapitre 3). 3. Enfin, on divise cette différence par le nombre de catégories. Le résultat obtenu indique la taille de chaque intervalle. Prenons les salaires des joueurs de la LNH et établissons une distribution groupée des effectifs pour 10 intervalles. 1. La différence entre le salaire le plus élevé et le plus bas est de 10 835 000 $ (11 000 000-165 000 $). 2. Puisque nous désirons établir les effectifs pour 10 catégories de salai- res, nous divisons l’étendue des salaires (10 835 000 $) par 10, et ainsi chaque intervalle regroupera les salaires en tranches de 1 083 500 $. 3. Nous pouvons maintenant construire nos intervalles et établir la distribution groupée des données : la première catégorie compte le nombre de joueurs ayant un salaire situé entre 165 000 et 1 248 500 $ (165 000 $ + 1 083 500 $ = 1 248 500 $) et la deuxième inclut tous les salaires entre 1 248 501 et 2 332 000 $. Le dernier intervalle com- prend tous les salaires entre 9 916 501 et 11 000 000 $. Dans l’exemple des salaires des joueurs de la LNH, la taille de l’intervalle créé par cette façon de faire produit un chiffre peu usuel (1 083 500 $). Or, il est généralement préférable d’arrondir la taille des intervalles. Ainsi, au lieu d’utiliser un intervalle de 1 083 500 $, il est plus commode de choisir un intervalle de 1 100 000 $. Donc, le premier intervalle comprend les salaires se situant entre 0 et 1 100 000 $ inclusivement, le deuxième intervalle, les salaires supérieurs à 1 100 000 $ et égaux ou inférieurs à 2 200 000 $, le troi- sième intervalle, les salaires supérieurs à 2 200 000 $ et égaux ou inférieurs 38 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S à 3 300 000 $, etc. Le Tableau 2.1 montre les effectifs groupés pour les salai- res des joueurs de la LNH. On peut y remarquer deux aspects importants : Chaque salaire appartient à une seule catégorie. Tous les salaires sont catégorisés. Tableau 2.1 Distribution des données pour les salaires des joueurs de la LNH, 2002-2003, avec intervalle de 1 100 000 $ Catégorie de salaires Pourcentage Pourcentage Fréquence (intervalle) en M $ (proportion) cumulatif Plus de 0 à 1,1 374 55,1 % (0,551) 55,1 % Plus de 1,1 à 2,2 148 21,8 % (0,218) 76,9 % Plus de 2,2 à 3,3 76 11,2 % (0,112) 88,1 % Plus de 3,3 à 4,4 30 4,4 % (0,044) 92,5 % Plus de 4,4 à 5,5 20 2,9 % (0,029) 95,4 % Plus de 5,5 à 6,6 9 1,3 % (0,013) 96,8 % Plus de 6,6 à 7,7 5 0,7 % (0,007) 97,5 % Plus de 7,7 à 8,8 5 0,7 % (0,007) 98,2 % Plus de 8,8 à 9,9 7 1,0 % (0,01) 99,3 % Plus de 9,9 à 11 5 0,7 % (0,007) 100,0 % TOTAL 679 100,0 % (1,0) Le Tableau 2.1 permet maintenant d’appréhender rapidement la dis- tribution des salaires que ces athlètes reçoivent. Par exemple, la majo- rité des joueurs (374 sur 679, ou 55,1 %) a un salaire égal ou inférieur à 1 100 000 $ et seulement une minorité (5 sur 679, ou 0,7 %) touche plus de 9 900 000 $. Quiz rapide 2.2 Un nouveau joueur arrive dans l’équipe. Il gagne 12 000 000 $. Est-ce qu’on doit refaire tout le Tableau 2.1 ou ajouter une nouvelle catégorie « Plus de 11 000 000 à 12 100 000 $ » ? Justifiez votre réponse. LA DISTRIBUTION DES D ONNÉES 39 La taille des catégories et leur nombre Il est plus facile de faire une interprétation des distributions de données lorsqu’elles contiennent peu de catégories. Mais, moins il y a de catégo- ries, plus grands sont les intervalles, et moins précise est l’interprétation qui pourra être faite de la distribution. Le principe peut être illustré pour les salaires des hockeyeurs de la LNH. Si nous créions un seul intervalle (le nombre minimal d’intervalles possi- ble), tous les salaires y seraient inclus et nous pourrions conclure que 100 % des salaires des joueurs se situent entre 0 et 11 000 000 $ ! Ce résultat ne nous aiderait pas beaucoup ! À l’inverse, nous pourrions représenter une catégorie par salaire (soit le nombre maximal de catégories possibles), ce qui produirait un tableau contenant 679 catégories, et cela ne nous avan- cerait pas plus. En général, nous nous efforçons de créer une distribution groupée des fréquences qui contient aussi peu de catégories que possible, tout en restant utile. Dans la plupart des cas, nous essayons d’établir entre 10 à 20 catégories bien que, dans certains cas, nous puissions en créer plus ou moins. La distribution groupée des données : sommaire des étapes La construction d’une distribution groupée des données exige le respect de trois règles fondamentales. 1. Les intervalles définissant les catégories doivent être établis de manière à ce que chaque observation soit classée dans une seule catégorie. 2. Les catégories doivent être de taille identique. Elles respectent toutes la même étendue de valeurs de la variable. 3. Les catégories doivent être choisies de manière à couvrir toutes les valeurs possibles. LA DISTRIBUTION RELATIVE DES DONNÉES Le Tableau 2.1 est utile pour faire une représentation des salaires des joueurs de hockey. Ainsi, on peut noter que 374 joueurs sont payés 1 100 000 $ ou moins, tandis que seulement 5 gagnent 9 900 000 $ ou plus. Il va sans dire 40 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S qu’un salaire aux alentours de 1 000 000 $ est plus habituel dans la LNH qu’un salaire de 10 000 000 $. Pour mieux comprendre ces effectifs, il est souvent pratique d’expri- mer, pour chaque valeur ou catégorie de valeurs, la fréquence des observa- tions qui s’y trouvent relativement au nombre total d’observations. Cette distribution prend un nom différent. On l’appelle distribution relative des effectifs, car la fréquence des observations pour chaque valeur exprime le nombre d’observations dans chaque valeur relative (par rapport) au nom- bre total d’observations. Nous pouvons exprimer ce rapport en proportion ou en pourcentage. La proportion indique la fréquence des observations se trouvant dans chaque intervalle relatif au nombre total d’observations. Le calcul de la proportion est facile : il s’agit simplement de diviser la fréquence obtenue pour chaque intervalle (fi) par le nombre total d’observations (N) : Proportion = fi/N Formule 2.1 La proportion est une valeur qui varie entre 0 et 1,0. Ainsi, dans une dis- tribution qui contient 100 observations, si 50 d’entre elles se trouvent dans le même intervalle, nous disons que la proportion des observations qui se situent dans cet intervalle est de 0,5 (Proportion = fi/N = 50/100 = 0,5). Si aucune observation n’existe pour un intervalle en particulier, la proportion pour cet intervalle est de 0,0. Il est également facile, une fois que nous avons calculé la proportion des observations, de les exprimer en pourcentage. Les pourcentages varient entre 0 et 100. Lorsque nous multiplions la proportion par 100 %, nous obtenons le pourcentage : Pourcentage = (fi/N) × 100 % Formule 2.2 Ainsi, lorsque nous obtenons une proportion de 0,50, cela indique que 50 % (donc la moitié) de toutes les observations tombent dans cet inter- valle. Le Tableau 2.1 présente (à la troisième colonne) le pourcentage (et la proportion qui est entre parenthèses) de joueurs dont le salaire se trouve dans chacune des catégories (intervalles). Calculons la proportion et le pourcentage de joueurs de la LNH dont le salaire se situe dans le premier intervalle (entre 0 et 1 100 000 $). Nous constatons qu’il y a 374 joueurs LA DISTRIBUTION DES D ONNÉES 41 dans ce premier intervalle de la distribution groupée des fréquences. Nous savons qu’au total, la banque de données inclut le salaire de 679 athlètes. Ainsi f1 = 374 et N = 679. La proportion est donc représentée par (f1/N) = (374/679) = 0,5508 ou 0,551, en arrondissant. Pour trouver le pourcentage, nous multiplions la proportion par 100 % = 0,5508 (100 % = 55,08 % ou 55,1 %, en arrondissant). Donc, nous constatons que 55,1 % (c’est-à-dire la majorité) des joueurs de hockey gagnent entre 0 et 1 100 000 $. Si nous reprenons la même démarche pour les athlètes les mieux payés (la dixième et dernière catégorie), nous notons que moins de 1 % (0,7 %) des joueurs de la LNH sont payés plus de 9 900 000 $ (N = 679 et f10 = 5 ; Proportion = f10/N = 5/679 = 0,0074) ; ce qui équivaut au pourcentage 0,0074 × 100 % = 0,74 %, ou 0,7 %, en arrondissant. Une première conclusion s’impose au sujet du différend entre les pro- priétaires et les athlètes de la LNH. Bien qu’il soit vrai que les salaires des joueurs peuvent grandement varier (la différence entre le salaire du joueur le mieux payé et celui du joueur le moins bien payé est de plus de 10 000 000 $) et que certains gagnent jusqu’à 11 000 000 $, il reste que la majorité des joueurs (55,1 %) gagne 1 000 000 $ ou moins par année. Est-ce que les joueurs de hockey gagnent des salaires exorbitants ? La distribution groupée des fréquences nous offre une réponse préliminaire : il est clair que certains athlètes sont très bien payés, mais la majorité obtient des salaires qui semblent plutôt ordinaires pour des athlètes professionnels. La distribution cumulative : proportions et pourcentages Il est souvent fort utile d’exprimer une distribution de fréquence rela- tive en la transformant en distribution de proportion (ou de pour- centage) cumulative. L’idée consiste ici à établir la proportion ou le pourcentage des observations qui se situent à chaque intervalle PLUS celles qui se trouvent dans tous les intervalles inférieurs. On peut étu- dier, à titre illustratif, les deux premières lignes de la quatrième colonne du Tableau 2.1. On note (à la première rangée de la colonne 4) que la proportion des joueurs qui gagne 1 100 000 $ ou moins est de 0,551 (55,1 %), et, à la deuxième rangée, on voit qu’une proportion de 0,769 (76,9 %) des joueurs gagne moins de 2 200 000 $. Cette quantité (76,9 %) 42 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S est la somme de la fréquence de la deuxième rangée (21,8 %) plus celle de la première rangée (55,1 %). La distribution de fréquence cumulative est informative, car même s’il est vrai que les salaires des joueurs de hockey peuvent aller jusqu’à 11 000 000 $, nous voyons maintenant que plus des trois quarts des joueurs (76,9 %) touchent une fraction de ce montant, en l’occurrence 2 200 000 $ ou moins. Si l’on pense que 2 200 000 $ n’est pas un salaire exorbitant pour un athlète professionnel, on va conclure que les trois quarts des joueurs de hockey n’ont pas un salaire exorbitant ! Si, en revanche, vous pensez que 2 200 000 $ est un salaire déraisonnable, la conclusion ne sera pas la même. On peut construire une distribution cumulative des proportions, des pourcentages ou des fréquences en additionnant la proportion, le pourcen- tage ou la fréquence des observations qui se situent dans un intervalle par- ticulier à la proportion, au pourcentage ou à la fréquence se trouvant dans tous les intervalles inférieurs. Par exemple, le pourcentage cumulatif pour l’intervalle 4 400 000 à 5 500 000 $ est 95,4 % (55,1 % + 21,8 % + 11,2 % + 4,4 % + 2,9 %). La fréquence cumulative pour ce même intervalle serait 648 (374 + 148 + 76 + 30 + 20). Nous concluons que, des 679 athlètes, 648 gagnent 5 500 000 $ ou moins. Quiz rapide 2.3 Dans la banque de données du site Internet (www.pum.umontreal.ca/ca/ fiches/978-2-7606-2113-8.html) : Quel est le pourcentage de joueurs de l’équipe de Tampa Bay qui gagnent 3 000 000 $ ou moins ? LES REPRÉSENTATIONS GRAPHIQUES DE LA DISTRIBUTION DES DONNÉES Il est souvent fort pratique de décrire graphiquement la distribution des données. Bien que plusieurs types de graphiques puissent être créés pour refléter la distribution, les graphiques des histogrammes et les polygones de fréquences sont ceux que nous rencontrons le plus fréquemment. LA DISTRIBUTION DES D ONNÉES 43 Le graphique des histogrammes La distribution des données du Tableau 2.1 est représentée visuellement à la Figure 2.1 par un graphique des histogrammes. Un histogramme est une barre verticale qui représente la taille d’un effectif. Lorsque chacun des effectifs d’une distribution est identifié par un histogramme, on obtient un diagramme des histogrammes. Plus la fréquence d’une valeur ou d’une catégorie est grande, plus long est l’histogramme. Le graphique des histogrammes contient deux axes : l’axe horizontal se nomme l’abscisse (généralement identifiée par le code X) tandis que l’axe vertical prend le nom d’ordonnée (généralement identifiée par le code Y). L’abscisse indique les catégories de réponses (les intervalles ou les catégo- ries) et l’ordonnée indique les fréquences. La fréquence obtenue pour cha- que catégorie de réponses est signalée par une barre verticale. Plus la barre est longue, plus les effectifs associés à cette catégorie sont grands. La plus petite fréquence possible étant zéro, le point où l’ordonnée coupe l’abscisse se trouve, dans ce cas, à la fréquence 0. Pour dessiner le graphique, on commence par la première catégorie (l’intervalle 0 à 1 100 000 $) et on note sa fréquence dans le tableau de la distribution de fréquences (l’effectif de ce premier intervalle est de 374, car 374 joueurs touchent entre 0 et 1 100 000 $). Ensuite, on trouve le point, le long de l’ordonnée, qui correspond à une fréquence de 374 et l’on trace une barre qui va de l’abscisse jusqu’à ce point sur l’ordonnée. On passe alors au deuxième intervalle de salaire (1 100 000-2 200 000 $). L’effectif pour cette deuxième catégorie est de 148. On trace alors une deuxième barre qui part sur l’abscisse et qui se prolonge jusqu’à la fréquence de 148, le long de l’ordonnée. On procède ainsi pour chaque intervalle jusqu’au dernier (9 900 000-11 000 000 $, qui a un effectif de 5). 44 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S figure 2.1 L’histogramme des salaires (en millions de dollars) 300 Fréquences 200 100 0 1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 11 Salaires Quiz rapide 2.4 L’histogramme de la Figure 2.1 qui représente les salaires des hockeyeurs a une forme très particulière (le gros des salaires est dans le bas de l’échelle). Pensez- vous que l’on puisse retrouver cette même forme en ce qui concerne les salaires des joueurs de basket-ball de la National Basketball League ? ou le nombre de pois- sons pêchés dans une journée par des bateaux de pêche ? En examinant la Figure 2.1, la situation des salaires des joueurs de la LNH se clarifie rapidement : la plupart d’entre eux ne touchent pas plus de 1 100 000 $ et seule une infime minorité de ces athlètes touchent plus de 5 500 000 $ ; dans la LNH, 10 000 000 $ ou plus est un salaire fort inha- bituel. En fait, l’histogramme ne contient pas plus d’informations que la distribution de fréquences qu’il décrit, mais il les présente sous un format plus facile et rapide à saisir. LA DISTRIBUTION DES D ONNÉES 45 Les règles utiles pour construire des histogrammes La construction des histogrammes exige le respect d’un certain nombre de règles. 1. Les intervalles reflétant les valeurs plus faibles de la variable se pla- cent vers la partie gauche de l’abscisse, et les valeurs plus fortes, vers la droite. Ainsi, à la Figure 2.1, l’intervalle décrivant le salaire le plus faible (0-1 100 000 $) est à l’extrême gauche de l’abscisse, et l’inter- valle du salaire le plus fort (9 900 000-11 000 000 $) est à l’extrême droite de l’abscisse. 2. Les fréquences identifiées sur l’ordonnée sont ascendantes, c’est- à-dire que la fréquence minimale (souvent zéro) est située au point où l’ordonnée et l’abscisse se coupent (s’interceptent). 3. L’étiquette qui définit chaque intervalle est inscrite sous chaque histogramme. Lorsque ces étiquettes sont trop longues, on peut alors les identifier dans une légende adjacente au graphique. Mais lorsqu’on fait ce choix, il est important d’identifier chaque barre de l’histogramme par une couleur ou une texture différente afin de pouvoir les distinguer rapidement. Le polygone des effectifs Lorsqu’on travaille avec des variables à intervalles ou de rapport, on peut aussi remplacer l’histogramme par une ligne liant les fréquences ; on appelle le résultat un graphique des polygones, comme celui de la Figure 2.2. Les polygones des effectifs sont souvent plus lisibles que les histogrammes et, comme nous le verrons plus loin, ils sont pratiques lorsque utilisés pour décrire des distributions de fréquences relatives. La construction d’un polygone des fréquences est très simple. Lorsqu’on travaille avec des distributions simples, il s’agit de mettre un point sur le graphique se rapportant à la fréquence de chaque valeur de la variable, et de relier ensuite chacun de ces points par une ligne. Lorsqu’on travaille avec des distributions groupées, on met le point à la valeur qui définit le centre de l’intervalle. Pour le polygone des salaires des hockeyeurs de la LNH, le 46 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S point qui décrit la première catégorie (0-1 100 000 $) est situé visuellement au centre de l’intervalle (550 000 $). Le polygone des fréquences utilise la même information que l’histo- gramme, et ces formes graphiques proviennent toutes deux de la distri- bution. L’avantage du polygone sur l’histogramme est qu’il produit un graphique visuellement plus simple. Si on étudie la Figure 2.2, on voit très bien que la fréquence des salaires plus élevés chute de façon marquante. figure 2.2 Le polygone des salaires (en millions de dollars) 400 350 300 250 Fréquences 200 150 100 50 0 0à 1,1 à 2,2 à 3,3 à 4,4 à 5,5 à 6,6 à 7,7 à 8,8 à 9,9 à 1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 11 Intervalles de salaires Comme pour la distribution des fréquences, il importe de construire les graphiques en se préoccupant du nombre total de catégories. L’objectif est d’accentuer la lisibilité du graphique en limitant le nombre de catégories sans pour autant le réduire trop. Par exemple, à la Figure 2.3, on a deux dis- tributions groupées pour le salaire des joueurs de la LNH. Le graphique de gauche comprend seulement trois intervalles, alors que celui de droite en contient beaucoup plus. Lequel de ces deux graphiques représente le mieux les résultats ? La Figure 2.1 est un graphique plus utile que les histogram- mes, mais aucune des deux n’est entièrement satisfaisante. LA DISTRIBUTION DES D ONNÉES 47 figure 2.3 Exemples d’histogrammes où le nombre de catégories est inapproprié 40 40 30 30 Fréquences Fréquences 20 20 10 10 0 0 1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 11 1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 11 Salaires (en millions) Salaires (en millions) Quiz rapide 2.5 Avec les graphiques de la Figure 2.3, peut-on avoir une idée (même approxima- tive) du nombre de joueurs gagnant environ 500 000 $ ? Avec la Figure 2.1, est-ce plus facile ? LES FORMES DE DISTRIBUTION La distribution des fréquences et les graphiques qui la représentent nous permettent de connaître la forme que prend la distribution. Cette forme générale est un important élément descriptif des distributions. La Figure 2.4 nous montre six formes possibles. La distribution unimodale La distribution unimodale a une seule « bosse » indiquant que l’effectif pour une des valeurs (ou un seul intervalle de valeurs dans le cas des dis- tributions groupées des effectifs) est plus grande que l’effectif de n’importe quelle autre valeur (ou intervalle de valeurs). La valeur sur l’abscisse qui est associée à cette bosse s’appelle le mode. Lorsqu’une distribution contient 48 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S une seule valeur, qui est la plus fréquente, la distribution est unimodale. Aussi, les effectifs pour les valeurs (ou intervalles) qui s’éloignent du mode deviennent graduellement plus petits. La distribution normale (la fameuse courbe en cloche que nous reverrons au chapitre 5) est une distribution unimodale. La distribution bimodale (ou multimodale) Contrairement à la distribution unimodale, la distribution bimodale contient deux modes. Dans ce cas, nous avons deux valeurs de la distribution qui sont à la fois fréquentes et les plus fortes de la distribution. Les distribu- tions bimodales sont plus rares que les distributions unimodales. Une distribution bimodale indique généralement que nous avons deux sous- groupes d’observations distinctes dans la distribution. Par exemple, un his- togramme décrivant la taille des joueurs de basket-ball et des jockeys sera presque certainement bimodale. Même si certains joueurs de basket-ball sont plus petits que d’autres, il y a fort à parier que tous seront plus grands que les jockeys. L’histogramme de cette distribution hypothétique aurait deux modes, l’un décrivant les jockeys, l’autre les joueurs de basket-ball. Lorsque nous avons plus de deux modes dans une distribution de fréquen- ces, la distribution prend le nom de distribution multimodale. Quiz rapide 2.6 Tenez pour acquis qu’il existe une distribution des connaissances en mathémati- ques. Vous testez les connaissances mathématiques de deux groupes d’étudiants, l’un provient du secondaire, et l’autre de l’université. Supposons que vous placiez les connaissances en mathématiques des deux groupes sur le même polygone, quelle sera la forme probable de cette distribution : unimodale ou bimodale ? La distribution symétrique Lorsque, dans une distribution, la fréquence des valeurs se répartit égale- ment des deux côtés de la valeur modale, nous disons que la distribution est symétrique. Lorsque la fréquence des valeurs ne se répartit pas également des deux côtés du mode, nous disons que la distribution est asymétrique. LA DISTRIBUTION DES D ONNÉES 49 La distribution asymétrique La distribution asymétrique se distingue d’une distribution symétrique par la position du mode. Les distributions unimodales qui sont asymétriques ont des fréquences très différentes selon le côté où sont situés les effectifs plus grands. Une distribution asymétrique positive indique que les valeurs sont plus étirées du côté positif de l’abscisse. Une distribution asymétrique négative a des valeurs plus étirées du côté négatif de l’abscisse1. La distribu- tion des salaires des hockeyeurs de la LNH est extrêmement asymétrique, et l’asymétrie est positive. La valeur la plus fréquente (le mode) se trouve à l’extrémité gauche de la distribution, et les valeurs s’étirent plus du côté positif de l’échelle. Quand la variable étudiée est le salaire, il est très fré- quent d’obtenir une distribution asymétrique positive puisque la plupart des gens ont des salaires plus faibles que forts. Une technique rapide pour distinguer une asymétrie positive d’une asy- métrie négative consiste à examiner la forme du polygone (voir la Figure 2.4). Nous identifions la forme de l’asymétrie par la direction dans laquelle le polygone « pointe ». Lorsque la distribution pointe vers les valeurs faibles de la distribution (vers la gauche du graphique), nous disons que la distri- bution est asymétrique négative. Dans le cas contraire, la distribution est asymétrique positive. Le degré d’aplatissement : leptocurtique et platycurtique Le degré d’aplatissement d’une distribution indique avec quel degré la dis- tribution de fréquences est aplatie ou pointue. Par exemple, les deux der- nières distributions de la Figure 2.4 représentent une distribution qui est très plate (distribution platycurtique) et une qui est très pointue (distribu- tion leptocurtique). 1. On se souviendra que, par convention, on met les valeurs faibles de la variable dans la partie gauche de l’abscisse (la partie « négative » de l’abscisse) et les valeurs fortes (positives), à droite. 50 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S figure 2.4 Différentes formes de distribution de fréquences Distribution unimodale Distribution bimodale 20 40 60 80 100 20 40 60 80 100 Distribution asymétrique positive Distribution asymétrique négative 20 40 60 80 100 20 40 60 80 100 Distribution platycurtique Distribution leptocurtique 20 40 60 80 100 20 40 60 80 100 Dans une distribution platycurtique, les valeurs de la distribution sont très étalées. La taille des effectifs est répartie plus également à travers les dif- férentes valeurs de la variable, indiquant que les catégories contiennent des fréquences plus similaires. À l’inverse, pour la distribution leptocurtique, les valeurs sont très concentrées autour du mode : ainsi, il existe beaucoup d’observations proches du mode, et la fréquence des observations diminue rapidement au fur et à mesure que l’on s’éloigne de la valeur modale. La distribution des salaires des joueurs de la LNH est leptocurtique (aussi bien qu’asymétrique). Trois joueurs sur quatre (77 %) reçoivent des salaires LA DISTRIBUTION DES D ONNÉES 51 égaux ou inférieurs à 2 200 000 $, tandis que les autres (23 %) ont des salai- res se situant entre 2 200 000 et 11 000 000 $. Quiz rapide 2.7 Vous avez une distribution des absences au travail des employés d’une compagnie. La grande majorité d’entre eux s’absente entre 0 et 4 jours par année. Mais une minorité s’absente plus souvent, certains jusqu’à 50 jours. Quelle sera la forme probable de cette distribution : symétrique, asymétrique positive, asymétrique négative ? Tableau 2.2 Notes obtenues à deux examens (en %) Examen partiel Examen final Examen partiel Examen final 30 33 65 71 32 42 67 73 35 44 70 74 46 52 71 75 49 55 71 76 49 57 72 77 50 61 74 77 52 62 75 78 55 62 75 79 56 64 75 81 59 65 76 82 61 66 76 82 62 66 77 84 63 67 78 86 64 69 87 88 65 71 90 92 52 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S LA DISTRIBUTION DES FRÉQUENCES : UN EXEMPLE COMPLET Le Tableau 2.2 présente les notes obtenues par 32 étudiants à des examens. Les notes s’étalent entre 30 et 90 pour l’examen partiel, et entre 33 et 92 pour l’examen final. Le Tableau 2.3 reprend les données du Tableau 2.2, qu’il présente sous la forme d’une distribution groupée. La Figure 2.5 est l’histogramme groupé pour ces résultats. Nous pouvons voir que, bien que les notes de l’examen partiel s’étalent de la catégorie 20 à 30 jusqu’à la catégorie 80 à 90, la majo- rité des étudiants obtient des notes se situant entre 60 et 80. Quant à l’exa- men final, la répartition semble située un peu plus à droite (de la catégorie 30 à 40 jusqu’à la catégorie 90 à 100). Elle est aussi plus dispersée puisque la majorité des étudiants ont des notes entre 60 et 90. Tableau 2.3 Distribution des fréquences et des pourcentages groupés et cumulatifs pour deux examens Intervalles Fréquence Fréquence Pourcen- Pourcen- Pourcen- Pourcen- de notes examen examen tage tage tage tage partiel final examen examen cumulatif cumulatif partiel final examen examen partiel final plus de 20 à 30 1 0 3,1 % 0,0 % 3,1 0,0 plus de 30 à 40 2 1 6,3 % 3,1 % 9,4 3,1 plus de 40 à 50 4 2 12,5 % 6,3 % 21,9 9,4 plus de 50 à 60 4 3 12,5 % 9,4 % 34,4 18,8 plus de 60 à 70 8 9 25,0 % 28,1 % 59,4 46,9 plus de 70 à 80 11 10 34,4 % 31,3 % 93,8 78,1 plus de 80 à 90 2 6 6,3 % 18,8 % 100,0 96,9 plus de 90 à 100 0 1 0,0 % 3,1 % 100,0 100,0 LA DISTRIBUTION DES D ONNÉES 53 figure 2.5 Distribution des notes pour les examens partiel et final 10 10 8 8 Fréquences Fréquences 6 6 4 4 2 2 0 0 10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100 Examen partiel Examen final Le polygone est particulièrement utile lorsqu’il s’agit de placer plusieurs distributions des effectifs sur le même graphique afin de les comparer. La Figure 2.6 est un exemple des polygones tracés à partir de la distribu- tion des notes obtenues par les étudiants aux deux examens. Elle présente simultanément (sur le même graphique) deux polygones de fréquences, l’un qui décrit le résultat à l’examen final (en pointillé) et l’autre, les notes obtenues à l’examen partiel (la ligne solide). On trouvera les données pour ces polygones au Tableau 2.3. figure 2.6 Polygones pour les notes à deux examens 40 35 30 Fréquences 25 Examen partiel 20 Examen final 15 10 5 0 moins 40-49 50-59 60-69 70-79 80-89 plus que 40 que 89 Intervalles de résultats aux examens 54 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S La comparaison visuelle de ces deux polygones indique plus de simila- rités que de différences entre les résultats aux deux examens. La majorité des étudiants obtient entre 50 et 90, et les notes très fortes et très faibles sont rares dans les deux cas. De plus, dans les deux cas, la fréquence la plus forte se retrouve pour la même catégorie de résultats aux examens (70-80). Par contre, les deux examens ne produisent pas des résultats identiques. On observe que plus d’étudiants obtiennent des notes très fortes (80-90 ; 90 et plus) à l’examen final qu’à l’examen partiel et, à l’inverse, plus d’étu- diants obtiennent des résultats faibles à l’examen partiel qu’à l’examen final (40-50 ; 50-60). L’examen final était-il plus facile que l’examen partiel ? Les distributions permettent de tirer rapidement une conclusion préliminaire. En revanche, si l’on est tenté d’en tirer une conclusion définitive, il faut attendre. Il faut d’abord apprendre les procédures d’inférences statistiques qui sont discutées dans les chapitres suivants. SOMMAIRE DU CHAPITRE La description statistique la plus simple consiste à élaborer une distribution des effectifs. La distribution simple des effectifs présente le nombre d’obser- vations pour chacune des valeurs d’une variable. Lorsque l’on a une grande étendue de valeurs possibles dans une distribution, il est préférable de construire une distribution groupée des effectifs. Dans ce cas, les réponses similaires sont mises dans une même catégorie et l’on compte le nombre d’observations qui tombent dans chacune d’elles. À partir de la distribution simple ou groupée des effectifs, il est possible de calculer la proportion et le pourcentage. Les distributions relatives expriment, pour chaque valeur de la distribution, le nombre d’observations qu’elles contiennent par rapport au nombre total d’observations. L’histogramme et le polygone se servent de la même information (la distribution des effectifs et ses dérivés, tels que les distributions relatives) afin de produire une « image » visuelle de la répar- tition. Ainsi, la distribution aussi bien que ses représentations graphiques permettent d’arriver aux mêmes conclusions. LA DISTRIBUTION DES D ONNÉES 55 EXERCICES DE COMPRÉHENSION 1. Lorsque nous organisons un ensemble de données par ordre crois- sant et que nous indiquons à côté de ces données la fréquence qui y est associée, nous construisons __________. a) une distribution des effectifs b) un histogramme c) un graphique des effectifs d) aucune de ces réponses 2. Généralement, en combien de classes les données doivent-elles être regroupées ? a) de 5 à 10 b) de 10 à 20 c) de 5 à 15 d) de 15 à 30 3. Vous avez une distribution dont la valeur la plus petite est 22 et la valeur la plus élevée est 86. Supposons que vous décidiez de regrouper ces données en 8 classes. Quelle sera l’étendue de chaque intervalle de classe ? a) 8 b) 9 c) 10 d) 19 4. Parmi les 5 000 professeurs d’université au Canada, 1 000 sont des professeurs adjoints. Quelle est la proportion de professeurs adjoints dans les universités canadiennes ? a) 1 000 b) 20 % c) 0,20 d) Impossible à calculer, puisque l’on ne connaît pas le nombre de professeurs dans les autres catégories. 5. Pour la question 4, le pourcentage de professeurs adjoints est de __________. 56 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S 6. Le premier intervalle compte toutes les valeurs entre 10 et 20, et le deuxième compte toutes celles entre 20 et 30. Une personne obtient 20. Dans quelle catégorie allez-vous la placer ? a) La catégorie 1. b) La catégorie 2. c) À la fois dans la catégorie 1 et dans la catégorie 2. d) Dans ni l’une ni l’autre : les intervalles ne sont pas correctement définis. 7. Une valeur est plus fréquente que n’importe quelle autre dans une certaine distribution. a) La distribution est obligatoirement multimodale. b) La distribution est obligatoirement unimodale. c) La distribution est obligatoirement leptocurtique. d) La distribution est obligatoirement symétrique. 8. Nous mesurons le nombre de questions de raisonnement mathé- matique auxquelles un groupe d’élèves du primaire et un groupe de professeurs de mathématiques à l’université ont répondu correcte- ment. La distribution est probablement _________. a) platycurtique b) symétrique c) négativement asymétrique d) bimodale 9. Dans cet examen, 90 % des étudiants obtiennent entre 70 et 72. La distribution des notes est fort probablement ________________. a) platycurtique b) leptocurtique c) négativement asymétrique d) positivement asymétrique LA DISTRIBUTION DES D ONNÉES 57 Réponses 1. a 2. b 3. a 4. c 5. 20 % 6. d 7. b 8. d 9. b Page laissée blanche CHAPITRE 3 LES STATISTIQUES DESCRIPTIVES Les statistiques de la tendance centrale.............................................................. 61 Le mode.............................................................................................................................. 62 La médiane....................................................................................................................... 64 Critique de la médiane comme statistique de la tendance centrale 67 La moyenne arithmétique..................................................................................... 69 Les mesures de dispersion............................................................................................ 77 L’étendue........................................................................................................................... 78 L’étendue interquartile............................................................................................ 79 La variance autour de la moyenne......................................................................... 81 Le concept de l’erreur autour de la moyenne revisité....................... 81 Critique de la somme des erreurs au carré comme statistique de la dispersion............................................................................. 84 Le calcul de la variance autour de la moyenne...................................... 85 L’écart-type...................................................................................................................... 88 Autres statistiques descriptives................................................................................ 89 Le degré d’aplatissement........................................................................................ 92 Le coefficient de variabilité................................................................................... 93 Sommaire du chapitre..................................................................................................... 94 Exercices de compréhension...................................................................................... 95 Page laissée blanche