Cours de Statistique Bach 2 UMAPON 2020-2021 PDF

Probabilité et Statistiques 1 Table des matières OBJECTIFS GENERAUX…………………………………………………………………………………..2 OBJECTIFS SPECIFIQUES………………………………………………………………………………..2 BIBLIOGRAPHIE…………………………………………………………………………………………….2 TABLES STATISTIQUES…………………………………………………………………………………..3 INTRODUCTION.............................................................................................14 CHAPITRE I : REGROUPEMENT ET EXPOSITION DES DONNEES.......................16 CHAPITRE II : MESURES DE TENDANCE CENTRALE ET MESURES DE POSITION 36 CHAPITRE III : MESURES DE DISPERSION ET MESURES DE FORME..................53 CHAPITRE IV. ANALYSE COMBINATOIRE ET BINOME DE NEWTON................67 CHAPITRE V. PROBABILITES........................................................................76 CHAPITRE VI. LOIS DE PROBABILITES.........................................................86 CHAPITRE VII. ECHANTILLONNAGE........................................................... 106 CHAPITRE VIII. ESTIMATION................................................................... 115 CHAPITRE IX. TEST D’HYPOTHESES.......................................................... 124 CHAPITRE X. ÉTUDE DE DEUX VARIABLES STATISTIQUES............................ 142 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 2 OBJECTIFS GENERAUX Parmi les objectifs généraux du cours on peut citer principalement ce qui suit :  Lire avec un œil critique l’information chiffrée,  Comprendre et mener correctement des expériences, des enquêtes et des travaux de recherche. OBJECTIFS SPECIFIQUES A l’issue de ce cours l’étudiant doit être capable de :  Mener des enquêtes sur terrain par des sondages ou des recensements,  Délimiter une population selon ses caractéristiques ou variables statistiques,  Déterminer avec précision l’échantillon utilisé dans une étude,  Faire correctement l’échantillonnage par des méthodes indiquées,  Récolter des données brutes sur terrain  Traiter les données brutes  Regrouper, synthétiser, classifier ces données  Présenter clairement les données traitées  Tracer les histogrammes et autres courbes de distribution statistique  Analyser et interpréter les résultats  Comparer avec des modèles théoriques  Calculer des probabilités  Faire des prévisions  Prendre des décisions éclairées BIBLIOGRAPHIE  Ouellet G., (1998). Statistiques et Probabilités, Mathématiques au collégial, Edition Le Griffon d’argile, 481 pages.  Pirlot M., (2008). Cours de Statistique, Faculté Polytechnique de Mons, 109 p.  Yves Tillé, (2010). Résumé du cours de Statistique Descriptive, Université de Neuchatel, 172p.  Dodge Y., (2003). Premiers pas en statistique, Springer  Droesbeke J.-J. (1997). Eléments de statistique. Université libre de Bruxelles Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 3 TABLES STATISTIQUES Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 4 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 5 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 6 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 7 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 8 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 9 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 10 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 11 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 12 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 13 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 14 INTRODUCTION ORIGINE On trace l’origine des statistiques dès le début de notre ère et on peut même penser que, sous une forme simple, on utilisait les statistiques bien avant celle-ci. Comme l’origine latine du mot l’indique, les statistiques sont nées de l’étude d’amas de données et d’informations chiffrées relatives à l’Etat. Les premières statistiques connues proviennent de recensements et servent les besoins politiques, militaires et fiscaux des Etats. Pendant longtemps elles se sont limitées à cela. Ce n’est qu’au 18è siècle qu’apparait une discipline qu’on appelle la statistique. La statistique profite alors du développement de la théorie des probabilités pour progresser à pas de géant. Dès lors, elle dépasse le stade exclusivement descriptif pour faire l’analyse des données statistiques, l’interprétation des résultats et, ensuite, tirer certaines conclusions à partir d’éléments connus. Aujourd’hui, les statistiques envahissent notre quotidien. NATURE ET METHODE DE LA STATISTIQUE La branche des mathématiques appliquées qui a pour objet l'étude des séries de faits ou de données numériques s'appelle la statistique. Plus précisément, on définit la statistique comme étant la science qui traite des principes et des méthodes servant à recueillir, à classer, à organiser, à synthétiser et à présenter des données numériques, puis, avec le concours du calcul des probabilités, à analyser, à interpréter, à tirer des conclusions et à prendre des décisions judicieuses à partir de ces données numériques. Lorsqu'on utilise l'expression « la statistique » au singulier, on fait référence à la science telle qu'on vient de la définir. Lorsqu'on parle «des statistiques» au pluriel, on parle de données numériques. Dans le présent ouvrage, on donnera un sens plus précis à l'expression « une statistique » pour désigner une donnée numérique. De nos jours, il est presque impensable de faire une étude sérieuse des statistiques sans s'adjoindre les éléments de base de la théorie des probabilités. La méthode classique des sciences exactes étudie un phénomène quelconque dans des conditions idéales et néglige certains écarts aléatoires en décrivant le phénomène étudié selon un schéma idéal et souvent simplifié. La méthode classique retient les facteurs fondamentaux intervenant dans un phénomène et ne porte pas attention à l'influence de facteurs secondaires. Les modèles ainsi obtenus peuvent être très utiles mais rarement parfaits. Dans tout phénomène ou expérience interviennent des facteurs aléatoires secondaires très nombreux et parfois très compliqués, de sorte qu'il est impossible de les enregistrer tous et, ainsi, de tenir compte de chacun dans l'élaboration d'un modèle. Cependant, l'ensemble de ces facteurs aléatoires secondaires ne peut pas être négligé, ce qui amène à étudier les lois régissant les dispersions aléatoires de données numériques, c'est-à-dire la théorie des probabilités. L'utilisation conjointe des statistiques et de la théorie des probabilités débouche sur une méthode d'étude qui peut être utilisée dans presque toutes les disciplines : c'est la méthode statistique. D'un point de vue didactique, on peut décomposer la méthode statistique en cinq grandes étapes : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 15 1. Reconnaissance du problème Dans cette étape, il faut délimiter de manière précise la population sur laquelle porte l'étude, la ou les caractéristiques étudiées dans cette population et les objectifs qu'on désire atteindre par cette étude. Négliger cette étape peut conduire à des résultats inexacts ou déformés. Nous avons tous déjà entendu des affirmations du genre « On fait dire n'importe quoi aux statistiques » ou encore « On peut arranger les chiffres comme on veut ». L'origine de ces statistiques qu'on dit « truquées » est souvent le manque de rigueur dans les définitions de la population, des caractéristiques étudiées et des objectifs visés. Si les nombres recueillis et calculés sont en eux-mêmes exacts et précis, il faut savoir à quoi ils se rapportent et ce qu'ils représentent. De là le soin et la minutie qu'il faut accorder à cette première étape de toute étude statistique. 2. Collecte des données Cette deuxième étape est très importante et elle doit être effectuée méticuleusement. C'est le défi principal du statisticien « sur le terrain ». L'adéquation entre les objectifs poursuivis et les résultats obtenus en dépend. Cette collecte se fait selon l'un des deux modes suivants : le recensement ou le sondage. Le recensement est une opération par laquelle on recueille les informations faisant l'objet d'étude auprès de tous les individus de la population. Le sondage est une opération par laquelle on recueille les informations requises auprès d'une partie de la population appelée échantillon. La composition de l'échantillon doit être faite soigneusement selon des techniques précises si on veut que les données recueillies et les résultats qui en découlent puissent être représentatifs de toute la population. La collecte des données est donc une opération clé qui peut s'avérer très délicate dans son aspect technique. 3. Regroupement, classification et présentation des données A l'issue du recensement ou du sondage, on a en main un amas de données appelées données brutes. À partir de normes, de définitions, de méthodes et de techniques reconnues, il faut maintenant synthétiser et organiser cet amas de données pour en faire une présentation aussi simple et aussi claire que possible. C'est l'objet d'étude de la statistique descriptive. Ce traitement des données apporte un éclairage nouveau au problème étudié et fournit des éléments (par exemple une moyenne, un taux, un graphique) qui ouvrent la voie à l'étape suivante. 4. Comparaison avec des modèles théoriques À partir de l'étude de phénomènes où intervient le hasard, on élabore des modèles théoriques de comportement qu'on appelle des lois de probabilité. Selon la nature et les objectifs du problème étudié, on compare la situation observée avec l'une ou l'autre des lois de probabilités. 5. Analyse et interprétation À l'aide des éléments fournis par les deux étapes précédentes, on procède à une analyse des résultats. On peut expliquer et interpréter les résultats obtenus, tirer certaines conclusions, faire une prévision avec une certaine marge d'erreur ou prendre une décision éclairée sur la base de l'interprétation des résultats. La partie de la statistique qui a pour objet l'étude des méthodes permettant de tirer des conclusions concernant une population à l'aide de données recueillies dans un échantillon extrait de cette population s'appelle l’inférence statistique. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 16 CHAPITRE I : REGROUPEMENT ET EXPOSITION DES DONNEES I.1. Population et échantillon En statistique, on utilise le mot population dans son sens le plus large. On appelle population tout ensemble sur lequel porte une étude statistique. Les éléments d'un tel ensemble s'appellent des individus ou unités statistiques. Il faut bien comprendre qu'une population peut être formée de personnes, d'animaux, d'objets et même de faits. On dit aussi que « N » est la taille de la population. Lorsqu'une étude statistique porte sur une population très grande ou difficilement accessible dans sa totalité, on choisira plutôt de procéder à l'étude sur un échantillon. On appelle échantillon tout sous-ensemble de la population. On dit aussi que « n » est la taille de l'échantillon. I.2. Variables statistiques Après avoir cerné très précisément la population ou l’échantillon, on veut maintenant étudier une qualité, un attribut ou une caractéristique que possède chacun des individus observés. C'est ce qu'on appelle une variable statistique. Les différents états ou les différentes valeurs que peut prendre une variable statistique s'appellent les modalités ou valeurs de cette variable statistique. On notera une variable statistique par une lettre majuscule X (ou Y,...) et ses modalités par la même lettre minuscule affectée d'indices : X u x2,... (ou yl, y2,...). Pour désigner une modalité quelconque, on notera xi où i prend autant de valeurs différentes qu'il y a de modalités distinctes. Exemple Un restaurant désire faire une enquête auprès de sa clientèle. On décide donc qu'à chaque client qui viendra la semaine suivante, on lui demandera de remplir une petite carte où celui-ci indiquera son sexe, son degré de satisfaction, son heure d'arrivée, le nombre de personnes qui l'accompagnent et le montant de l'addition. Indiquer quelle est la population concernée et l'échantillon choisi, quelles sont les variables statistiques étudiées et quelles seraient les modalités ou valeurs de celles-ci. Solution : Population : Ensemble des clients du restaurant. Échantillon : Ensemble des clients qui viendront au restaurant au cours de la semaine suivante. Variables statistiques : X : sexe Y : degré de satisfaction T : heure d'arrivée V : nombre de personnes qui accompagnent le client W : montant de l'addition Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 17 Modalités des variables statistiques : pour X : {masculin, féminin} pour Y : {très insatisfait, insatisfait, satisfait, très satisfait} pour T : [0, 24] pour V : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ou plus} pour W : [0, 200] I.3. Etude d'une variable statistique qualitative I.3.1 Distribution d'une variable statistique X Supposons que l'on fait une étude d'une variable statistique qualitative X dans une population formée de N individus ou dans un échantillon formé de n individus. L'ensemble des modalités de X est le suivant : {𝑥1 , 𝑥2 , … , 𝑥𝑖 , … , 𝑥𝑘 } Il est clair que k , le nombre de modalités différentes, ne peut pas être supérieur à N ou à n. Exemple, Soit l'étude de l'état civil des 40 employés de la compagnie SOLID. Ainsi, N = 40, et X représente la variable statistique qualitative ou caractère : « état civil des employés de la compagnie SOLID». Admettons pour le caractère X les modalités suivantes : {Marié(e), célibataire, divorcé(e), veuf (ve), religieux (se)} L'étape suivante consiste à recueillir l'information désirée; dans le cas présent, l'état civil de chacun des employés de la compagnie SOLID. Les premières informations ainsi recueillies forment ce qu'on appelle les données brutes. № d'employé État civil № d'employé État civil 1 Marié 21 civil Marié 2 Mariée 22 Marié 3 Célibataire 23 Célibataire 4 Divorcé 24 Veuve 5 Marié 25 Divorcé 6 Célibataire 26 Mariée 7 Célibataire 27 Célibataire 8 Mariée 28 Marié 9 Divorcée 29 Marié 10 Veuf 30 Mariée 11 Marié 31 Célibataire 12 Célibataire 32 Divorcée 13 Mariée 33 Marié 14 Marié 34 Divorcé 15 Marié 35 Mariée 16 Célibataire 36 Mariée 17 Religieuse 37 Célibataire Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 18 18 Célibataire 38 Divorcée 19 Mariée 39 Célibataire 20 Marié 40 Marié Cependant, ces données brutes sont difficilement utilisables et très difficiles à interpréter. On devra donc sacrifier le caractère individuel de l'information pour obtenir un portrait d'ensemble de l'état civil de la population concernée. Il faut donc condenser l'information pour en faire une présentation aussi simple que possible. Pour chaque modalité xi, on calcule le nombre d'individus ayant cette modalité en procédant ainsi : on dresse la liste de toutes les modalités. Marié(e) |||| |||| |||| |||| Célibataire |||| |||| | Divorcé(e) |||| | Veuf (ve) || Religieux (se) | Lorsqu'on a complété ce dénombrement du tableau des données brutes on obtient, en regard de chacune des modalités xi le nombre d'individus associés à cette modalité ; on note ce nombre par n i et on l'appelle la fréquence absolue ou Y effectif de. xi. On a : 20 individus mariés 11 individus célibataires 6 individus divorcés 2 individus veufs 1 individu religieux Ainsi, à chaque modalité xi on peut associer un effectif nt. L'ensemble des couples (xi, ni) est une fonction (au sens mathématique du terme) que l'on nomme distribution de fréquences ou simplement distribution de X : {(Marié, 20), (Célibataire, 11), (Divorcé, 6), (Veuf, 2), (Religieux, 1)} Un tel ensemble de données est aussi appelé une série statistique simple, c'est-à-dire ne concernant qu'une seule variable statistique. Une distribution de fréquences sera généralement donnée sous forme de tableau. Lorsqu'il n'y a qu'une seule variable statistique étudiée, on dit qu'il s'agit d'un tableau à une entrée ou tableau à une dimension. La somme des effectifs est toujours égale au nombre d'individus dans la population, ce que l'on note par : ∑ 𝑛𝑖 = 𝑁 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 19 (Lire : « la somme des n¡ est égale à N ») Naturellement, dans le cas où on travaille sur un échantillon, on a : ∑ 𝑛𝑖 = 𝑛 Le tableau de distribution est plus concis, plus clair et plus significatif. III.2.2 Fréquences relatives et taux Lorsqu'on considère un nombre en soi, par lui-même, sans aucune base de comparaison, on dit qu'il s'agit d'un nombre absolu. Il faut une base de comparaison, c'est-à- dire un autre nombre auquel ce nombre sera comparé. En statistique, on compare deux nombres en faisant la division de ceux-ci. On définit le rapport ou le ratio de deux modalités xi et xj par : 𝑛𝑖 𝑛𝑗 Par exemple, 𝑐é𝑙𝑖𝑏𝑎𝑡𝑎𝑖𝑟𝑒 11 𝑅𝑎𝑝𝑝𝑜𝑟𝑡 ( ) = ( ) = 0,55 𝑚𝑎𝑟𝑖é 20 C’est-à-dire qu'il y a 0,55 célibataire pour chaque personne mariée ou, si on multiplie par 100, il y a 55 célibataires pour 100 personnes mariées dans cette population. Pour avoir une base de comparaison commune, il semble naturel de comparer chacun des effectifs au nombre total d'individus. On définit la fréquence relative ou proportion d'une modalité x i par: Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 20 𝑛𝑖 𝑛𝑖 (population) 𝑜𝑢 (échantillon) 𝑁 𝑛 que l'on note fi ; ainsi : 𝑛𝑖 𝑛𝑖 𝑓𝑖 = 𝑜𝑢 𝑓𝑖 = 𝑁 𝑛 11 Par exemple : Proportion de célibataires = 40 = 0,275 On appelle pourcentage d'une modalité xi le nombre fi x 100. Distribution de l'état civil des employés de la compagnie SOLID Modalités Effectifs Fréquences relatives % (état civil) (nombre d'employés) xi ni fi fi x100 Marié (e) 20 0,500 50,0 Célibataire 11 0,275 27,5 Divorcé (e) 6 0,150 15,0 Veuf (ve) 2 0,050 5,0 Religieux (se) 1 0,025 2,5 Totaux 40 1,000 100,0 La modalité à laquelle est associée la plus forte fréquence relative s'appelle le mode de la distribution. La somme des fréquences relatives est toujours égale à 1. ∑ 𝑓𝑖 = 1 En pratique, on limite la précision des fréquences relatives à trois chiffres après la virgule décimale, quitte à arrondir le dernier chiffre. Il y a d'autres types de comparaisons qui peuvent s'avérer très utiles. Supposons que l'on veuille savoir si le divorce est un phénomène d'importance dans la population étudiée. Il s'avère alors plus juste de comparer cet effectif au nombre d'individus exposés à divorcer. Cette fraction s'appelle le taux de divorce. nombre de divorcés 6 6 taux de divorce = nombre de divorcés + nombre de mariés = 20+6 = 26 = 0,231 = Ce taux est généralement multiplié par 100 pour l'exprimer en pourcentage. taux de divorce = 23,1 % En général, on définit le taux d'une modalité ou le taux d'un événement par: Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 21 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑓𝑜𝑖𝑠 𝑜ù 𝑐𝑒𝑡 é𝑣é𝑛𝑒𝑚𝑒𝑛𝑡 𝑠𝑒 𝑝𝑟𝑜𝑑𝑢𝑖𝑡 𝑡𝑎𝑢𝑥 𝑑′ 𝑢𝑛é𝑣é𝑛𝑒𝑚𝑛𝑒𝑡 = nombre de fois où cet événement est susceptible de se produire III.2.3 Présentation graphique Toute l'information chiffrée que l'on possède se trouve dans le tableau de distribution de fréquences. Il est cependant bien utile d'illustrer cette information en représentant graphiquement la distribution de fréquences d'un caractère. Une telle représentation graphique peut se faire par un diagramme en colonnes (ou en rectangles, ou en tuyaux d'orgue), par un diagramme à secteurs (ou diagramme circulaire), ou par un diagramme figuratif (ou pictogramme). Dans un diagramme à secteurs, on utilise un cercle que l'on subdivise en autant de secteurs qu'il y a de modalités et où l'aire de chacun de ces secteurs est proportionnelle au pourcentage de la modalité correspondante. L'angle au centre pour chacun des secteurs est d e f i x 360 degrés. Par exemple, le secteur correspondant aux divorcé(e)s a un angle au centre de (0,150) x 360 = 54 degrés. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 22 Dans un diagramme figuratif ou pictogramme, on utilise diverses illustrations ou images pour donner une synthèse visuelle de la distribution de fréquences. En pratique, ces pictogrammes sont surtout utilisés lorsque les fréquences sont des nombres très grands. Exemple Dans un sondage réalisé auprès d'un échantillon de 450 personnes âgées de 18 ans et plus et demeurant dans la région métropolitaine de Québec, on a demandé si on croyait qu'il y a beaucoup de gens mariés ou en union libre qui ne se séparent pas à cause des enfants. 131 personnes ont répondu « beaucoup », 249 « un peu », 43 de ce nombre, « pas du tout » et 27 «ne peut pas préciser ». (Source : Le Soleil, dimanche 11 septembre 1988.). Indiquer la population, la variable concernée et le type d'échelle de mesure utilisée. Construire un tableau de distribution de fréquences en y incluant une colonne de fréquences relatives. Trouver le mode de la distribution. Représenter graphiquement cette distribution par un diagramme en colonnes. Solution : Population : Ensemble des personnes âgées de 18 ans et plus et demeurant dans la région métropolitaine de Québec. L'échantillon est extrait de cette population. Variable : Opinion sur l'importance du nombre de gens mariés ou en union libre qui ne se séparent pas à cause des enfants. Échelle de mesure : C'est une variable statistique qualitative et les réponses suggérées indiquent une échelle de mesure ordinale. Distribution des gens de 18 ans et plus demeurant dans la région métropolitaine de Québec selon leur opinion sur l'importance du nombre de personnes mariées ou en union libre qui ne se séparent pas à cause des enfants Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 23 Le mode de cette distribution est «un peu», ce qui permet de dire qu'en général les gens concernés croient qu'il y aurait un peu plus de séparations sans la présence des enfants dans un couple. I.4. Etude d'une variable statistique quantitative I.4.1 Variable discrète ou continue Une variable statistique quantitative est dite discrète si les valeurs que peut prendre cette variable sont des valeurs isolées, généralement entières. Exemple : Le nombre d'enfant d’une personne, le nombre d’employer d’une usine, le nombre de vote recueillis par un députer sont des variables discrètes puisque les valeurs possibles de ces entiers isolés les uns des autres. Une variable statistique quantitative est dite continue si l'ensemble des valeurs qu'elle peut prendre est un intervalle de l'ensemble des nombres réels. Exemple : La température du corps humain est une variable statistique continue puisque, a priori, si on la mesure en degrés Celsius, elle peut prendre n'importe quelle valeur réelle dans l'intervalle [36,42]. En général, les variables concernant les longueurs, les surfaces, le temps, l'espace, la masse sont des variables continues. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 24 Ce n'est pas tant la nature de l'ensemble des valeurs d'une variable statistique quantitative que le nombre de ses valeurs qui nous servira de critère pour distinguer les diverses situations. On distingue trois cas : les données rangées, les données condensées et les données regroupées en classes. I.4.2 Données rangées Le nombre N d'individus dans la population est petit (on considère petit : N < 20). Exemple : Carole vient de s'acheter un terrain et elle a noté, en mètres, la hauteur des arbres sur I ce terrain ; elle obtient les données brutes suivantes : 12 11 14 7 9 4 21 11 8, Ranger ces données dans un ordre ascendant. Solution : On a 4-7-8-9-11-11-12-21 On appelle série chronologique ou série temporelle ou chronique un ensemble de valeurs d’une variable statiques quantitative observées dans le temps, habituellement à intervalle égaux. Pour une série chronologique, il est inutile de construire un tableau de distribution de fréquences. Exemple : Un journaliste sportif étudie la carrière du légendaire joueur de hockey Maurice Richard. Il relève, notamment, le nombre de buts marqués par le « Rocket » au cours de chacune des 18 saisons jouées par celui-ci de 1942-1943 à 1959-1960. On a, dans l’ordre : 5, 32, 50, 27, 45, 28, 20, 43, 42, 27, 28, 37, 38, 38, 33, 15, 17, 19. Représenter graphiquement cette série chronologique. Solution : Cette représentation graphique donne un effet visuel de la variation de la variable « Nombre des buts marqués par saison ». I.4.3. Données condensées Le nombre k de valeurs différentes de la variable est petit par rapport à N ou n ( N ou n > 20). Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 25 Exemple On a mené une enquête auprès d’un échantillon de 60 ménages de la région d’Ottawa-Hull. On demandait notamment le nombre d’enfants dans le ménage. On a relevé les données brutes suivantes : Déterminer la population et la variable. Construire un tableau de distribution de fréquences incluant les fréquences relatives et les pourcentages. Construire un diagramme en bâtons. Solution :  La population : c'est l'ensemble des ménages de la région d'Ottawa-Hull et on a prélevé un échantillon de 60 d'entre eux.  La variable : que l'on note par X , c'est le nombre d'enfants dans un ménage ; c'est une variable statistique quantitative discrète.  De plus, le nombre de valeurs différentes ( k = 8) est petit comparativement à la taille de l'échantillon ( n = 60). Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 26 Il faut noter que, lorsqu'on choisit de porter sur l'un des axes les fréquences relatives en lieu et place des effectifs, le diagramme garde le même profil. I.4.4. Données groupées en classes Le nombre k de valeurs différentes de la variable est grand avec N ou n > 20. C’est sans doute le cas le plus fréquent. Une classe est un intervalle semi-ouvert que l'on notera [ b i - e 1 , b i [ où b i - 1 s'appelle la borne inférieure de cette i classe et bi la borne supérieure. Une valeur xi appartient à la classe [ b i - 1 , b i [ si cette valeur A :,- est supérieure ou égale à b i - 1 et inférieure à bi , ce qu'on exprime par: 𝑏𝑖−1 ≤ 𝑥𝑖 < 𝑏𝑖 On appelle milieu ou centre de la ie classe et on note par mi le nombre suivant : 𝑏𝑖−1 + 𝑏𝑖 𝑚𝑖 = 2 On appelle largeur ou amplitude de la ie classe et on note par Li le nombre suivant : 𝐿𝑖 = 𝑏𝑖 − 𝑏𝑖−1 Lorsque le regroupement en classes est complété, on étudie la variable statistique quantitative de la même manière qu'une variable statistique qualitative. On construit un tableau de distribution de fréquences en remplaçant la colonne des modalités par la colonne des classes et en ajoutant la colonne mi des milieux de classes ; ce nombre mi deviendra la valeur Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 27 représentant toutes les données d'une même classe. On omet la colonne des pourcentages pour conserver la colonne des fréquences relatives. Exemple Aux Jeux intercollégiaux d'un pays d'Europe, au cours d'examens de contrôle, on a noté la taille en centimètres de tous les athlètes masculins participant à l'épreuve du saut en hauteur. Voici les données brutes rangées dans un ordre ascendant : Déterminer la population et la variable étudiée. Construire un tableau de distribution de fré- quences. Solution :  La population est l'ensemble de tous les athlètes masculins ayant participé à l'épreuve du saut en hauteur lors des Jeux intercollégiaux d'un pays d'Europe.  La variable statistique étudiée est la taille mesurée en centimètres. Notons cette variable par X.  L'étendue de la variable X est : 204,8- 171,1 =33,7 Avec 55 données, il n'y a pas lieu de choisir un trop grand nombre de classes ; un bon choix consisterait à choisir 7 classes de largeur 5 en fixant la borne inférieure bQ à 170 et la borne supérieure à 205. Bien sûr, un autre choix pourrait être fait et s'avérerait aussi correct. Voici le tableau de distribution de fréquences de X. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 28 Note : Il n'est pas utile de faire un total de la colonne des milieux de classe. I.4.5. Histogramme et polygone de fréquences Pour représenter graphiquement une distribution de fréquences lorsque les données ont été regroupées en classes, on utilise deux types de graphiques : l'histogramme et le polygone de fréquences. L'histogramme est un diagramme en colonnes où les rectangles sont juxtaposés. En effet, les modalités sont ici remplacées par des classes et ces classes sont formées d'intervalles successifs de sorte qu'il n'y a plus lieu maintenant de séparer ces rectangles. Le polygone de fréquences est une ligne obtenue en joignant les points milieux consécutifs des sommets des rectangles de l'histogramme. Exemple : Tracer l'histogramme et le polygone de fréquences de la distribution de l'exemple précèdent. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 29 Pour faciliter le tracé du polygone de fréquences, esquissons en pointillé les rectangles de l'histogramme. Le polygone de fréquences présente certains avantages par rapport à l'histogramme pour faire l'étude d'une distribution de fréquences, du fait qu'il est simple à visualiser et plus approprié pour faire des comparaisons. Dans le cas d’une variable statistique continue, si on s’imagine que l’on a un très grand nombre de données, que l’on forme un nombre de plus en plus grand de classes et que la tendance de la distribution des fréquences se maintient, alors le polygone de fréquences sera formé de très nombreux petits segments de droites et en poussant le processus à la limite on aura une courbe de distribution de fréquences. Le polygone de fréquences de l’exemple précèdent devient alors : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 30 On dit alors qu’on a lissé le polygone de fréquences. Cette forme de représentation graphique d’une distribution de fréquences sera souvent utilisée en inférence mathématique, où l’on cherche à comparer la distribution observée aux lois de probabilités théoriques. Alors, la courbe de distribution de fréquences est associée à une loi de probabilités connue. On utilise alors les propriétés connues de cette loi de probabilités pour prévoir le comportement de l’ensemble de la population. Exemple : Lors d'une enquête sur les chauffeurs de taxi de la région de Montréal, on a prélevé un échantillon de 52 chauffeurs et on leur a demandé leur kilométrage pour la journée d'hier. Voici les données brutes : Déterminer la population et la variable. Construire un tableau de distribution de fréquences, un histogramme et un polygone de fréquences. Solution :  La population est l'ensemble des chauffeurs de taxi de la région de Montréal ; on a prélevé un échantillon de 52 de ces chauffeurs et la variable étudiée X est le kilométrage de la journée d'hier.  C'est une variable statistique quantitative continue. On a 52 données toutes différentes, la plus petite étant 68,7 et la plus grande 546,1.  Pour regrouper en classes, on considère d'abord l'étendue de la variable X , Soit: 546,1 - 68,7 = 477,4. Supposons que l'on choisisse 5 classes de largeur 100 en prenant 50 comme borne inférieure de la première classe. On aurait alors : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 31 On remarque qu'il y a ainsi deux classes avec des effectifs relativement grands comparativement aux autres classes. Cela détaille certes moins bien la distribution de la variable X. Essayons plutôt 10 classes de largeur 50 en prenant encore 50 comme borne inférieure de la première classe : Cette manière de regrouper en classes révèle beaucoup mieux la distribution de X. Cependant, on a alors deux classes d'effectifs nuls avant la dernière classe d'effectif 1. Généralement, on n'admet pas de classe à effectif nul ; on termine alors la distribution avec une seule classe de largeur 150, soit la classe [400, 550[, de manière à récupérer la dernière donnée qui est vraiment éloignée des autres données. Voici le tableau de distribution de fréquences de X : Dans le tracé de l'histogramme, il faut porter une attention particulière au dernier rectangle, c'est-à-dire celui qui correspond à la classe [400, 550[. Pour ce rectangle, ayant une base trois Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 32 fois plus grande que celle des autres, il faudra divises sa hauteur (donc, la mesure de l’effectif) par 3 pour respecter le principe de proportionnalité. Ce dernier rectangle aura pour base l'in- tervalle [400, 550 [et pour hauteur 1/3. Pour tracer le polygone de fréquences, on procède selon la même technique où on considère le dernier rectangle comme étant formé de trois rectangles de largeur 50 I.4.6. Fréquences cumulées et ogive Dans le cas d'une variable statistique quantitative, on ajoutera au tableau de distribution de fréquences une colonne des effectifs cumulés ou des fréquences relatives cumulées. L'effectif cumulé d'une modalité, ou d'une classe, est formé de la somme des effectifs de cette modalité, ou de cette classe, et de ceux de toutes les autres modalités, ou classes, qui Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 33 sont inférieures. Pour faciliter la comparaison de plusieurs distributions et de certains calculs dans les chapitres à venir, on choisit plutôt d'inclure aux tableaux de distribution de fréquences la colonne des fréquences relatives cumulées. On note les fréquences relatives cumulées par Fi. Pour représenter graphiquement la distribution des fréquences relatives cumulées, (a) on note, sur l'axe horizontal, les valeurs de la variable et sur l'axe vertical, les fréquences relatives cumulées. Une telle courbe de fréquences relatives cumulées s'appelle une ogive. Exemple À partir des données de l'exemple précèdent, refaire le tableau de distribution de fréquences en y ajoutant une colonne des fréquences relatives cumulées. Construire l'ogive. Trouver la proportion de chauffeurs ayant un kilométrage de moins de 300 km. Trouver la proportion de chauffeurs ayant un kilométrage de plus de 350 km. Trouver la proportion de chauffeurs ayant un kilométrage entre 200 et 300 km. Pour trouver les proportions, on utilise la colonne des fréquences relatives ou celle des fréquences relatives cumulées. Ainsi, pour trouver la proportion des chauffeurs ayant un kilométrage de moins de 300 km, on peut additionner toutes les fréquences relatives des classes inférieures à celle commençant à 300 km, c'est-à-dire : 0,038 + 0,096 + 0,135 + 0,212 + 0,250 = 0,731 ou encore, trouver le résultat directement dans la colonne des fréquences relatives cumulées à la ligne correspondant à la classe se terminant à 300 km. Pour trouver la proportion des chauf- feurs ayant un kilométrage de plus de 350 km, on peut additionner les fréquences relatives de toutes les classes supérieures à celle se terminant à 350 km, c'est-à-dire : 0,077 + 0,019 = 0,096 ou encore, trouver le résultat en soustrayant de 1,000 la fréquence relative cumulée à la ligne correspondant à la classe se terminant à 350 km, soit : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 34 1,000 - 0,904 = 0,096 Pour trouver la proportion des chauffeurs ayant un kilométrage entre 200 et 300 km, on peut additionner les fréquences relatives de toutes les classes à partir de celle qui commence à 200 km jusqu'à celle qui se termine à 300 km, c'est-à-dire : 0,212 + 0,250 = 0,462 ou encore, trouver le résultat en soustrayant de la fréquence relative cumulée à la ligne corres- pondant à la classe se terminant à 300 km la fréquence relative cumulée à la ligne correspond dont à la classe se terminant à 200 km, c'est-à-dire : 0,731 - 0,269 = 0,462 EXERCICES LIBRES 1. Une compagnie d’assurance désirant faire une proposition aux étudiants à plein temps du collège ABC décide au préalable de faire une étude sur les étudiants concernés pour connaitre le sexe, l’âge au 1er septembre, la taille, la masse et le nombre d’hospitalisations déjà subies. Déterminer la population, les individus, les variables statistiques et les modalités de ces variables statistiques. 2. En consultant les fiches de la ligue de hockey Dépérie, on note que Jos D a joué 12 saisons et a marqué respectivement 16, 31, 24, 18, 42, 36, 21, 29, 30, 21, 17 et 12 buts. a) Déterminer la population b) Déterminer la variable statistique étudiée c) Cette variable statistique est – elle discrète ou continue ? d) Ranger les données dans un ordre ascendant. 3. La clinique médicale JKL a fait une étude sur tous ses dossiers de varicelle enregistrée cette année et on y a notamment inscrit le nombre de frères et sœurs de chacun des patients atteints de cette maladie contagieuse. On relève les données brutes suivantes : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 35 2 1 2 0 6 0 1 2 3 1 3 0 2 0 4 1 0 4 0 2 1 1 3 2 3 3 2 1 1 1 0 1 2 4 1 2 2 7 3 2 0 1 1 2 5 5 3 4 3 0 1 2 2 3 0 1 2 0 2 2 a) Déterminer la population b) Déterminer la variable statistique. Trouver k et N c) Construire un tableau de distribution de fréquences. d) Construire un diagramme en bâtons. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 36 CHAPITRE II : MESURES DE TENDANCE CENTRALE ET MESURES DE POSITION 2.1. Caractéristiques d'une distribution de fréquences En statistique, on s'intéresse à des ensembles de données. De ce fait, on range les données en ordre, on les condense selon les modalités ou on les regroupe selon des classes pour étudier la distribution de fréquences. Cette étude met de côté le caractère individuel de chacune des données pour mettre l'accent sur le caractère d'ensemble de ces données. Dans le même ordre d'idées, pour décrire un ensemble de données, on cherche à dégager des caractéristiques d'une distribution de fréquences représentée par une courbe de distribution de fréquences. Pour caractériser et bien décrire une distribution de fréquences, on définit des mesures indiquant où se situent le centre et par extension toute autre position, on définit des mesures décrivant l'étalement, l'éparpillement, le déploiement ou la dispersion et on définit des mesures indiquant la forme de la distribution de fréquences. Ce sont, respectivement, les mesures de tendance centrale et de position, les mesures de dispersion et les mesures de forme. On peut constater facilement le besoin de définir ces mesures en considérant les courbes de distribution de fréquences suivantes : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 37 Les deux variables statistiques X et Y ont une distribution de fréquences semblable mais n’ont pas le même centre. Considérons maintenant les courbes de distribution de fréquences suivantes : Les deux variables V et W ont le même centre mais différent par leur dispersion. On constate que la courbe de distribution de fréquence de la variable R présente une forte dissymétrie. 2.2 Mode, médiane, moyenne Il y a plusieurs façons d'envisager la notion de centre d'une distribution de fréquences, ce qui nous amène à distinguer différentes mesures de tendance centrale. Considérons d'abord les trois principales : Le mode, la médiane et la moyenne. L'idée de base derrière chacun de ces concepts est simple. Le mode, c'est la plus haute fréquence. La médiane, c'est le milieu, le partage en deux parties égales. La moyenne, c'est l'équilibre où on tient compte de la grandeur de toutes les données. 2.2.1 Mode : 𝑴𝒐 1. Données rangées : C'est la donnée qui apparaît le plus fréquemment. 2. Données condensées : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 38 C'est la modalité ayant la plus haute fréquence (absolue ou relative). 3. Données groupées en classes : La classe modale est la classe ayant la plus haute fréquence. A l'intérieur de cette classe, on situe de façon précise le mode, proportionnellement aux différences de fréquences de la classe modale avec ses deux classes voisines. On définit : ∆1 𝑀𝑜 = 𝑏𝑚𝑜 + ( )𝐿 ∆1 + ∆2 𝑚𝑜 Où : 𝑏𝑚𝑜 est la borne inférieure de la classe modale ; ∆1 est la différence entre la fréquence de la classe modale et la fréquence de la classe précédente ; ∆2 est la différence entre la fréquence de la classe modale et la fréquence de la classe qui suit, 𝐿𝑚𝑜 est la largeur de la classe modale. On considère que le mode correspond au point le plus élevé de la courbe de distribution de fréquences de la variable considérée. Exemple Trouver le mode des distributions de fréquences des variables statistiques suivantes : a ) La variable statistique X dont les données rangées sont : 27 29 31 31 31 34 36 39 42 45 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 39 b ) La variable statistique discrète Y dont les données condensées sont contenues dans le tableau de distribution de fréquences suivant : c) La variable statistique W dont les données sont groupées dans le tableau de distribution de fréquences qui suit : Solution : a) le mode est 31 puisque cette donnée apparaît trois fois, soit plus fréquemment que toutes les autres données. b) Le mode est 18 puisque la modalité à la plus haute fréquence, soit 16 comme fréquence absolue dans ce cas-ci. c) La classe modale est la classe [60,70[ puisque cette classe à la plus haute fréquence ; Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 40 Alors : ∆1 1 𝑀𝑜 = 𝑏𝑚𝑜 + ( ) 𝐿𝑚𝑜 = 60 + ( ) 10 = 62 ∆1 + ∆2 1+4 2.2.2 Médiane : 𝑴𝒅 1. Données rangées : 𝑁+1 𝑒 Si N est impair, c'est la ( ) donnée. 2 𝑁 𝑒 𝑁 𝑒 Si N est pair, c'est le milieu entre la ( 2 ) et la ( 2 + 1) donnée. 2. Données condensées : Même définition que dans le cas des données rangées. On peut aussi dire que c'est la première modalité dont la fréquence relative cumulée dépasse 0,500. Si la fréquence relative cumulée atteint une valeur exacte de 0,500, on choisit le nombre à mi-chemin entre la modalité concernée et la suivante. 3. Données groupées en classes: La classe médiane est la première classe où la fréquence relative cumulée atteint ou dépasse 0,500. Pour préciser une valeur de la médiane. On définit ainsi : 0,500 − Fmd−1 Md = bmd + ( ) Lmd fmd Où 𝑏𝑚𝑑 est la borne inférieure de la classe médiane ; 𝐹𝑚𝑑−1 est la fréquence relative cumulée de la classe qui précède la classe médiane ; 𝑓𝑚𝑑 est la fréquence relative de la classe médiane ; 𝐿𝑚𝑑 est la largeur de la classe médiane. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 41 La médiane est la valeur qui divise l’aire de l’histogramme en deux parties égales, c’est-à-dire que la somme des aires des rectangles à gauche de Md est égale à la somme des aires des rectangles à droite de Md. Naturellement, ces définitions de la médiane s’appliquent tout aussi bien à une population qu’à un échantillon. Bien sûr, dans le cas d’un échantillon, le nombre de données est représenté par n. Exemple Trouver la médiane des distributions de fréquences des variables statistiques de l'exemple précédent. Solution : a ) Puisque N = 10, la médiane de X est située à mi-chemin entre la cinquième et la sixième donnée. 31 + 34 Md = = 32,5 2 b ) Puisque N = 55, la médiane de F est la 28e donnée. Md= 18 On pourrait aussi cumuler les fréquences relatives et constater que c'est à la modalité 18 que l'on dépasse la fréquence relative cumulée de 0,500. c ) La classe médiane est [60, 70[ puisque c'est la première classe où la fréquence relative cumulée dépasse 0,500. Alors : 0,500 − Fmd−1 0,500 − 0,468 Md = bmd + ( ) Lmd = 60 + ( ) 10 = 61,3 fmd 0,255 2.2.3 Moyenne : 𝝁𝒙 La moyenne arithmétique noté par 𝜇𝑥 (population) ou 𝑥̅ (échantillon), est ainsi définie : 1. Données rangées : ∑ xi μx = N Ou ∑ xi 𝑥̅ = n 2. Données condensées : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 42 ∑ ni x i μx = = ∑ fi xi N Où ∑ ni x i 𝑥̅ = = ∑ fi xi n 3. Données groupés en classes : Dans ce cas-ci, on agit comme si toutes les données étaient situées au centre de la classe qui les contient. ∑ ni mi μx = = ∑ fi mi N ∑ ni mi 𝑥̅ = = ∑ fi mi n Exemple Trouver la moyenne des distributions de fréquences des variables statistiques de l'exemple II.1. Solution : ∑ xi 27 + 29 + 31 + 31 + 31 + 34 + 36 + 39 + 42 + 45 a) μx = = = 34,5 N 10 ∑ n i yi 3(12) + 6(14) +10(16) +16(18) +11(20) + 6(25) + 3(29) b) μy = = = ∑ fi yi = 18,6 N 55 ∑ n i mi 4(35) + 7(45) +11(55) +12(65) + 8(75) + 5(85) c) μx = = = ∑ fi mi = 61,0 N 47 Exemple On a fait une enquête auprès d’un échantillon de 160 femmes québécoises occupant I un poste de cadre dans une PME. On a pris en note leur salaire annuel et on regroupe les données dans le tableau de distribution de fréquences suivant auquel on adjoint la colonne 𝑓𝑖 𝑚𝑖 Classes Milieux Effectifs Fréquences Fréquences (salaire annuel (nombre de relatives relatives en $) femmes) cumulées [bi−1 , bi [ mi ni fi Fi fi mi [20000, 30000[ 25 000 5 0,031 0,031 775 [30000, 40000[ 35 000 17 0,106 0,137 3710 [40000, 50000[ 45 000 28 0,175 0,312 7 875 [50000, 60000[ 55 000 43 0,269 0,581 14795 [60000, 70000[ 65 000 31 0,194 0,775 12610 [70000, 80000[ 75000 21 0,131 0,906 9825 [80000, 90000[ 85 000 13 0,081 0,987 6885 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 43 [90000, 95 000 2 0,012 0,999 1 140 100000[ Totaux - 160 0,999 - 57615 Calculer le mode, la médiane et la moyenne du salaire annuel. Solution : On calcule ainsi les mesures de tendance centrale : ∆1 15 𝑀𝑜 = 𝑏𝑚𝑜 + ( ) 𝐿𝑚𝑜 = 50000 + ( ) 10000 = 55556 ∆1 + ∆2 15 + 12 0,500 − Fmd−1 0,500 − 0,312 Md = bmd + ( ) Lmd = 50000 + ( ) 10000 = 56989 fmd 0,269 ∑ ni mi 5(25000) + 17(35000) + ⋯ + 2(95000) μx = = = 57687,50 N 160 Ou encore : 𝑋̅ = ∑ fi mi = 57 615. 2.3 Autres mesures de tendance centrale Le mode, la médiane et la moyenne ne sont pas les seules mesures de tendance centrale. Il en existe d'autres qui peuvent être utiles pour certains problèmes ou dans certaines disciplines. Il y a notamment la moyenne géométrique, la moyenne harmonique, la moyenne quadratique, le mi-chemin et le centre interquartile. Nous allons définir ces diverses mesures de tendance centrale pour une variable statistique X dont les données sont rangées : 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑁 Ces définitions s'appliquent aux cas des données condensées et des données rangées en faisant les changements nécessaires et naturellement au cas où on a un échantillon en remplaçant N par n. 2.3.1 Moyenne géométrique M G ( X ) Soit X , une variable statistique quantitative dont les modalités sont des nombres positifs. On définit la moyenne géométrique de X , que l'on note M G ( X ) , par: 𝑀𝐺(𝑋) = 𝑁√𝑥1 𝑥2 𝑥3 … 𝑥𝑁 Exemple Considérons la variable statistique X dont les données sont : 3, 4, 6, 7, 7, 7, 7, 9, 9, 10 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 44 Calculer Mo(X), M d ( X ) , μx et MG(X). Solution : Mo(X)=7 7+7 𝑀𝑑(𝑋) = =7 2 3 + 4 + 6 + 7 + 7 + 7 + 7 + 9 + 9 + 10 μx = = 6,9 10 10 𝑀𝐺(𝑋) = √3x4x6x7x7x7x7x9x9x10 = 6,53 Notons que 𝑀𝐺(𝑋) ≤ μx 2.3.2 Moyenne harmonique M H ( X ) Soit X, une variable statistique quantitative dont les modalités sont des nombres positifs. On définit la moyenne harmonique de X que l'on note par M H ( X ) par : 1 N MH(X) = = ∑ 1/xi ∑ 1/xi N Exemple Considérons la variable statistique X dont les données sont: 3, 4, 6, 7, 7, 7, 7, 9, 9, 10 Calculer MH(X). Solution : 10 𝑀𝐻(𝑋) = = 6,08 1 1 1 1 1 1 1 1 1 1 3 + 4 + 6 + 7 + 7 + 7 + 7 + 9 + 9 + 10 Notons que M H ( X ) ≤ M G ( X ) ≤ μx. 2.3.3 Moyenne quadratique M Q ( X ) Soit X , une variable statistique quantitative. On définit la moyenne quadratique de X , que l'on note M Q ( X ) , par: ∑ 𝑥𝑖2 𝑀𝑄(𝑋) = √ = √𝜇𝑥 2 𝑁 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 45 Exemple 1 Considérons la variable statistique X dont les données sont : 3, 4, 6, 7, 7, 7, 7, 9, 9, 10 Calculer MQ (X). Solution : 32 + 42 + 62 + 72 + 72 + 72 + 72 + 92 + 92 + 102 MQ(X) = √ = 7,20 10 Notons que M H ( X ) ≤ M G ( X ) ≤ μx ≤ M Q ( X ). La moyenne quadratique est utilisée lorsque certaines données sont de signe négatif. La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des données. 2.3.4 Mi-chemin et centre interquartile Mentionnons finalement deux mesures de tendance centrale forte simple. D'abord, il y a le mi-chemin défini par : 𝑋1 + 𝑋𝑁 2 Le calcul est immédiat et on s'en sert pour obtenir une estimation rapide de la moyenne. Le mi-chemin est de fait la moyenne arithmétique des deux valeurs extrêmes. 2.5 Mesures de position 2.5.1 Centiles Le centile d'ordre α que l'on note 𝐶𝛼 est ainsi défini : 1. Données rangées : 𝑁𝛼 𝑁𝛼 C'est la donnée dont le rang est l'entier qui suit si n'est pas un entier. 100 100 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 46 𝑁𝛼 𝑁𝛼 Si 100 est un entier, on choisit le nombre à mi-chemin entre la donnée de rang et la 100 donnée suivante. 2. Données condensées : 𝛼 C'est la première modalité dont la fréquence relative cumulée dépasse. Si la fréquence 100 𝛼 relative cumulée atteint une valeur exacte de 100, on choisit le nombre à mi-chemin entre la modalité concernée et la suivante. 3. Données groupées en classes : La classe contenant est la première classe où la fréquence relative cumulée atteint ou dé- passe Alors : 100 Où bCα est la borne inférieure de la classe contenant 𝐶𝛼 ; 𝐹𝐶𝛼−1 est la fréquence relative cumulée de la classe qui précède la classe contenant 𝐶𝛼 ; fCα est la fréquence relative de la classe contenant 𝐶𝛼 ; LCα est largeur de la classe contenant 𝐶𝛼. Exemple Trouver C32 pour chacune des distributions de fréquences des variables statistiques X , Y, et W de l'exemple II.1.. Solution : Nα a ) O n a N = 10; α = 32; 100 = 3,2 C32 est donc la quatrième donnée, c'est-à-dire C32 =31. Nα b ) On a 𝑁 = 55; 𝛼 32; 100 = 17,6. C32 est donc la 18e donnée, c'est-à-dire C32 = 16. On peut aussi procéder en se servant des fréquences relatives cumulées. Si on reproduit le tableau de distribution de fréquences en y ajoutant les fréquences relatives cumulées, on obtient : C32 = 16 car c'est à la modalité 16 que l'on dépasse la fréquence relative cumulée de 0,320. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 47 Modalités Fréquences Fréquences Fréquences absolues relatives relatives cumulées yi ni Fi Fi 12 3 0,055 0,055 14 6 0,109 0,164 16 10 0,182 0,346 18 16 0,291 0,637 20 11 0,200 0,837 25 6 0,109 0,946 29 3 0,055 1,001 Totaux 55 1,001 - c ) La classe contenant C32 est la classe [50, 60[. Ainsi : 0,320 − 0,234 𝐶32 = 50 + ( ) 10 = 53,7 0,234 2.5.2 Quartiles, quintiles, déciles et centre interquartile Les autres mesures de position, les quartiles, les quintiles et les déciles peuvent être considérées comme des cas particuliers des centiles. Ainsi, les quartiles, que l'on note 𝑄1 , 𝑄2 𝑒𝑡 𝑄3, sont des mesures qui partagent une distribution de fréquences en quatre parties égales. On définit : Q1 = C25 Q2 = C50 = Md Q3 = C75 De même les quintiles, pour lesquels on ne donne pas de notation précise, partagent une distribution de fréquences en cinq parties égales. Ce sont : Première quintile = C20 Deuxième quintile = C40 Troisième quintile = C60 Quatrième quintile = C80 Les déciles, que l'on note 𝐷1 , 𝐷2 , 𝐷3 , 𝐷4 , 𝐷5 , 𝐷6 , 𝐷7 , 𝐷8 , 𝐷9 partagent une distribution de fréquences en dix parties égales. On définit : 𝐷1 = 𝐶10 𝐷2 = 𝐶20 𝐷3 = 𝐶30 𝐷4 = 𝐶40 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 48 𝐷5 = 𝐶50 = 𝑀𝑑 = 𝑄2 𝐷6 = 𝐶60 𝐷7 = 𝐶70 𝐷8 = 𝐶80 𝐷9 = 𝐶90 Le centre interquartile est défini par : 𝑄1 + 𝑄2 2 Il représente le mi-chemin entre 𝑄1, et 𝑄3. On l'utilise pour obtenir une estimation de la médiane. Exemple Énoncé: En faisant l'étude des notes des 500 étudiants inscrits au concours mathématique du collège POP, on a regroupé les données et on les synthétise de la manière suivante : Note Fréquences absolues [10,20[ 25 [20,30[ 40 [30,40[ 81 [40,50[ 107 [50,60[ 115 [60,70[ 78 [70,80[ 38 [80,90[ 14 [90, 100[ 2 Trouver les mesures de position suivantes : 𝐶45 , 𝑄1 le troisième quintile, D3, D8 et le centre interquartile. Solution : Complétons d'abord le tableau de distribution de fréquences Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 49 Classes Fréquences Fréquences Fréquences (notes) absolues relatives relatives (nombre d'étudiants) cumulées [bi−1 , bi [ ni fi 𝐹𝑖 [10, 20[ 25 0,050 0,050 [20, 30[ 40 0,080 0,130 [30, 40[ 81 0,162 0,292 [40, 50[ 107 0,214 0,506 [50, 60[ 115 0,230 0,736 [60, 70[ 78 0,156 0,892 [70, 80[ 38 0,076 0,968 [80, 90[ 14 0,028 0,996 [90, 100[ 2 0,004 1,000 Totaux 500 1,000 - 0,450 − 0,292 𝐶45 = 40 + ( ) 10 = 47,4 0,214 0,250 − 0,130 𝑄1 = 𝐶25 = 30 + ( ) 10 = 37,4 0,162 Troisième quintile 0,600 − 0,506 = 𝑐60 = 50 + ( ) 10 = 54,1 0,230 0,300 − 0,292 𝐷3 = 𝐶30 = 40 + ( ) 10 = 40,4 0,214 0,800 − 0,736 𝐷8 = 𝐶80 = 60 + ( ) 10 = 64,1 0,156 0,750 − 0,736 𝑄3 = 𝐶75 = 60 + ( ) 10 = 60,9 0,156 Centre interquartile 𝑄1 + 𝑄2 37,4 + 60,9 = = = 49,2 2 2 On peut utiliser une méthode graphique pour déterminer les centiles et, en général, toutes les mesures de position. Cette méthode graphique utilise l'ogive. Pour illustrer cette méthode, considérons l'ogive de la distribution de fréquences relatives cumulées de la variable statistique de l'exemple précédent. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 50 2.5.3 Rang centile Le rang centile est une mesure en fonction de la position de la variable statistique 𝑥𝑖 , elle suggère le calcul inverse de la centile. Le rang centile est définie par : 𝑥𝑟 − 𝑏𝑟 𝑟𝑎𝑛𝑔 𝑐𝑒𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑥𝑟 = [100 ( 𝑥𝑓𝑟 + 𝐹𝑟−1 )] 𝐿𝑟 Où 𝑥𝑟 est la donnée dont on cherche le rang centile ; 𝑏𝑟 la borne inférieure de la classe contenant 𝑥𝑟 ; 𝐿𝑟 la largeur de la classe contenant 𝑥𝑟 ; fr la fréquence relative de la classe contenant 𝑥𝑟 ; 𝐹𝑟−1 la fréquence relative cumulée de la classe qui précède la classe contenant 𝑥𝑟. Où [ ] désigne la partie entière d'un nombre. Exemple Dans la distribution de fréquences de l'exemple II.1, trouver le rang centile des données suivantes : a) 31 b) 67 c) 82 Solution : a) La donnée 31 se situe dans la classe [30, 40[ ; alors le rang centile de 31 est l'entier inférieur à : 31 − 30 100 [ (0,162) + 0,130] = 14,62 10 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 51 Le rang centile de 31 est 14, c'est-à-dire qu'au moins 14% des données sont inférieures à 31. b) De même, le rang centile de 67 est l'entier inférieur à: 67 − 60 100 [ (0,156) + 0,736] = 84,52 10 Le rang centile de 67 est 84. On peut en voir l’illustration sur l’ogive qui suit l’exemple c) Le rang centile de 82 est l’entier inférieur à : 82 − 80 100 [ (0,028) + 0,968] = 97,36 10 Le rang centile de 82 est 97. Exemple On a mesuré en décibels le bruit ambiant dans chacune des 18 salles d'un édifice à bureaux. Voici les données rangées : 54, 58, 59, 60, 62, 62, 62, 63, 65, 68, 71, 72, 76, 80, 82, 96, 98, 102 Trouver le rang centile de la donnée 65. Solution : Le rang centile de 65, c'est le pourcentage de données inférieures à cette donnée. Ainsi, le rang centile est l'entier inférieur à : 8 100 () = 44,4 18 Puisqu’il y a 8 données inférieures à 65 parmi les 18 données du problème. Le rang centile de 65 est donc 44 EXERCICES LIBRES 1. Trouver le mode, la médiane et la moyenne des données rangées suivantes : 38 41 43 44 47 49 51 51 53 54 56 Trouver la moyenne harmonique, la moyenne géométrique, la moyenne quadratique et le mi-chemin. 2. Trouver le mode, la médiane et la moyenne des données condensées suivantes (pour fins de calculs, on conseille toujours de construire le tableau de distribution de fréquences au complet). Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 52 Modalités Fréquences absolues 10 2 11 3 12 7 13 9 14 14 15 8 16 3 17 1 Réponses : Mo = 14 ; Md = 14 ; µ = 13,5 3. La variable statistique X représente la longueur en centimètres des bâtons des joueurs de la ligue de hockey BUTE. Les données sont groupées ainsi : Longueur des bâtons Nombre de bâtons [𝟏𝟐𝟎, 𝟏𝟑𝟎[ 6 [𝟏𝟑𝟎, 𝟏𝟒𝟎[ 21 [𝟏𝟒𝟎, 𝟏𝟓𝟎[ 45 [𝟏𝟓𝟎, 𝟏𝟔𝟎[ 55 [𝟏𝟔𝟎, 𝟏𝟕𝟎[ 26 [𝟏𝟕𝟎, 𝟏𝟖𝟎[ 7 a) Construire un tableau de distribution de fréquences incluant les fréquences relatives et les fréquences relatives cumulées. b) Trouvez Q3 c) Trouver le deuxième quintile. d) Trouver D7. e) Trouver C48. f) Tracer l’ogive. g) Situer D7 et C48 sur l’ogive h) Trouver le rang centile de la longueur 156,8 cm. i) Trouver le centre interquartile. Réponses : b) 158,7 c) 148,2 d) 157,3 e) 150,9 h) 68 i) 150,8 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 53 CHAPITRE III : MESURES DE DISPERSION ET MESURES DE FORME III.1. Autres caractéristiques d'une distribution de fréquences Les mesures de dispersion précisent la forme de la distribution de fréquences, permettent déjuger de la représentativité des mesures de tendance centrale et indiquent un niveau d'éparpillement que l'on peut dans certains cas contrôler. Les principales mesures de dispersion sont : l’étendue, l’écart moyen, la variance et l’écart-type. III.2. Etendue, écart moyen, variance et écart-type Les différentes mesures de dispersion correspondent à des points de vue différents sur la manière de considérer la dispersion. Ainsi,  l'étendue est la distance entre la plus grande donnée et la plus petite.  L'écart moyen est la moyenne des écarts entre chaque donnée et la moyenne.  La variance est la moyenne des carrés des écarts entre chaque donnée et la moyenne.  L'écart-type est la racine carrée de la variance. À partir de ces idées de base, on peut donner une définition mathématique de chacune de ces mesures de dispersion en distinguant au besoin les trois cas de présentation des données : données rangées, données condensées et données groupées en classes. III.2.1. Étendue L'étendue, pour laquelle on ne donne pas de notation particulière, est ainsi définie : 1. Données rangées : C'est la différence entre la plus grande donnée et la plus petite : 𝑥𝑁 − 𝑥1 (dans le cas d'une population) ou 𝑥𝑛 − 𝑥1 (dans le cas d'un échantillon). 2. Données condensées : C’est la différence entre la plus grande modalité et la plus petite : 𝑥𝑘 − 𝑥1 3. Données groupées en classes : C'est la différence entre la borne supérieure de la dernière classe et la borne inférieure de la première classe : 𝑏𝑘 − 𝑏0 Exemple Trouver l'étendue de la distribution de fréquences des variables statistiques X , Y e t W de l'exemple II.1. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 54 Solution : a) La variable statistique X est présentée en données rangées. La plus grande donnée est 45 et la plus petite est 27. Ainsi : Étendue = 45-27= 18 b) La variable statistique Y est présentée en données condensées dans un tableau où la plus grande modalité est 29 et la plus petite est 12. Ainsi : Étendue = 29- 12= 17 c) La variable statistique W est présentée dans un tableau où les données sont groupées en classes. La dernière classe a comme borne supérieure 90 et la première classe a comme borne inférieure 30. Ainsi : Étendue = 90 - 30 = 60 III.2.2 Écart moyen (EM) 1. Données rangées : C'est la moyenne des distances, mesurées positivement, entre chacune des données et la moyenne. Selon qu'on soit dans une population ou dans un échantillon, cela s'exprime par: ∑|𝑥𝑖 − 𝜇𝑋 | ∑|𝑥𝑖 − 𝑥̅ | 𝐸𝑀 = 𝑜𝑢 𝑁 𝑛 2. Données condensées : Cette même idée s'exprime par: ∑ 𝑛𝑖 |𝑥𝑖 − 𝜇𝑋 | ∑ 𝑛𝑖 |𝑥𝑖 − 𝑥̅ | 𝐸𝑀 = 𝑜𝑢 𝑁 𝑛 Ou, ce qui est équivalent : 𝐸𝑀 = ∑ 𝑓𝑖 |𝑥𝑖 − 𝜇𝑋 | 𝑜𝑢 ∑ 𝑓𝑖 |𝑥𝑖 − 𝑥̅ | 3. Données groupées en classes : On exprime l’idée par la formule : ∑ 𝑛𝑖 |𝑚𝑖 − 𝜇𝑋 | ∑ 𝑛𝑖 |𝑚𝑖 − 𝑥̅ | 𝐸𝑀 = 𝑜𝑢 𝑁 𝑛 Ou, ce qui est équivalent : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 55 𝐸𝑀 = ∑ 𝑓𝑖 |𝑚𝑖 − 𝜇𝑋 | 𝑜𝑢 ∑ 𝑓𝑖 |𝑚𝑖 − 𝑥̅ | Exemple Trouver l'écart moyen des distributions de fréquences des variables statistiques X , Y I et W de l'exemple II.1. Solution : a) Pour la variable statistique X , de l’exemple II.1. 𝜇𝑥 = 34,5. ∑|𝑥𝑖 − 𝜇𝑋 | 𝐸𝑀(𝑋) = 𝑁 E M ( X ) = {|27- 34,5| +|29 - 34,5| +|31 - 34,5| +|31 - 34,5| +|31 - 34,5| +|34 - 34,5| +|36 - 34,5| +|39 - 34,5| +|42 - 34,5| +|45 - 34,5|} ÷ 10 E M ( X ) = 4,8 b ) Pour la variable statistique Y , μx = 18,6. ∑ 𝑛𝑖 |𝑦𝑖 − 𝜇𝑦 | 𝐸𝑀(𝑌) = 𝑁 E M { Y ) = { 3 |12-18,6| + 6 |14-18,6| + 10 |16-18,6| + 16 |18-18,6| + 11 |20-18,6|+ 6 |25-18,6| + 3 |29-18,6|}÷55 EM(Y) = 3,1 c) Pour la variable statistique W , 𝜇𝑤 = 61,0. 𝐸𝑀(𝑊) = ∑ 𝑓𝑖 |𝑚𝑖 − 𝜇𝑤 | E M ( W ) = (0,085) |35-61| + (0,149) |45 - 61| + (0,234) |55-61| + (0,255) |65-61| +(0,170) |75-61| +(0,106) |85-61| EM(W) = 11,9 III.2.3. Variance 𝝈𝟐𝒙 La variance d'une distribution de fréquences de la variable statistique X , que l'on note par 𝜎𝑥2 ,ou simplement 𝜎 2 lorsque le contexte ne risque pas de créer de confusion, est ainsi définie, dans le cas où on considère une population : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 56 1. Données rangées : C'est la moyenne des carrés des écarts : ∑(𝑥𝑖 − 𝜇𝑋 )2 𝜎𝑥2 = 𝑜𝑢 𝑁 ∑(𝑥𝑖 − 𝑥̅ )2 𝑠𝑥2 = 𝑛−1 Dans le cas ou ont considères un échantillon (variance échantillonnale) 2. Données condensées : La même idée s'exprime par: ∑ 𝑛𝑖 (𝑥𝑖 − 𝜇𝑋 )2 𝜎𝑥2 = = ∑ 𝑓𝑖 (𝑥𝑖 − 𝜇𝑋 )2 𝑁 Dans le cas de la population, ou ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 𝑛 𝑠𝑥2 = =( ) ∑ 𝑓𝑖 (𝑥𝑖 − 𝜇𝑋 )2 𝑛−1 𝑛−1 Dans le cas ou ont considères un échantillon (variance échantillonnale) 3. Données groupées en classes : On l'exprime alors par: ∑ 𝑛𝑖 (𝑚𝑖 − 𝜇𝑋 )2 𝜎𝑥2 = = ∑ 𝑓𝑖 (𝑚𝑖 − 𝜇𝑋 )2 𝑁 Dans le cas de la population, ou ∑ 𝑛𝑖 (𝑚𝑖 − 𝑥̅ )2 𝑛 𝑠𝑥2 = =( ) ∑ 𝑓𝑖 (𝑚𝑖 − 𝑥̅ )2 𝑛−1 𝑛−1 Dans le cas ou ont considères un échantillon (variance échantillonnale) III.2.4 Écart-type 𝝈𝒙 L'écart-type d'une distribution de fréquences de la variable statistique X , que l'on note par 𝜎𝑥 dans le cas d'une population et 𝑠𝑥 dans le cas d'un échantillon, est la racine carrée de la variance. Bien sûr, cette définition vaut pour les trois formes de présentation des données aussi bien pour 𝜎𝑥 que pour 𝑠𝑥. Exemple Trouver la variance et l'écart-type des distributions de fréquences de variables statistique X , Y et W de l'exemple II.1. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 57 Solution : a ) Pour la variable statistique X , μx = 34,5. Alors: ∑(𝑥𝑖 −𝜇𝑋 )2 𝜎𝑥2 = 𝑁 𝜎𝑥2 = {(27 - 34,5)2 + (29 - 34,5)2 + (31 - 34,5)2 + (31 - 34,5)2 + (31 - 34,5)2 + (34 - 34,5)2 + (36 - 34,5)2 + (39 - 34,5)2 + (42 - 34,5)2 + (45 - 34,5)2} ÷10 𝜎𝑥2 =31,25 et 𝜎𝑥 =5,6 b ) Pour la variable statistique Y, μy = 18,6. Alors: ∑ 𝑛𝑖 (𝑥𝑖 − 𝜇𝑋 )2 𝜎𝑥2 = = ∑ 𝑓𝑖 (𝑥𝑖 − 𝜇𝑋 )2 𝑁 𝜎𝑦2 = {3(12-18,6)2+6 (14-18,6)2+10 (16-18,6)2+16 (18-18,6)2 + 11 (20- 18,6)2 + 6 (25-18,6)2 +3 (29-18,6)2}÷55 𝜎𝑦2 = 16,78 et 𝜎𝑦 = 4,1 c ) Pour la variable statistique W , μw = 61,0. Alors : ∑ 𝑛𝑖 (𝑚𝑖 − 𝜇𝑋 )2 𝜎𝑥2 = = ∑ 𝑓𝑖 (𝑚𝑖 − 𝜇𝑋 )2 𝑁 𝜎𝑥2 = (0,085) (35-61)2 +(0,149) (45 - 61)2 + (0,234) (55-61)2 + (0,255) (65 -61)2 + (0,170) (75 -61)2 + (0,106) (85 - 61)2 𝜎𝑥2 = 202,48 et 𝜎𝑥 = 14,2 Exemple 3.2.5.2 Alain, gardien de but de l'équipe de hockey de son école, note évidemment le nombre de buts qu'il alloue à chaque match. Il a résumé sa dernière saison dans le tableau suivant : Nombre de Nombre de buts alloués matchs 0 5 1 12 2 14 3 8 4 7 5 4 6 2 7 1 10 1 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 58 Trouver la moyenne de buts alloués par match et l’écart-type. Solution : Si X est la variable statistique « Nombre de buts alloués par match », on peut résumer les données et les calculs dans le tableau de distribution de fréquences suivant : Modalités Fréquences Fréquences Fréquences (nombre de absolues relatives relatives buts alloués) (nombre de cumulées matchs) 𝑥𝑖 NI fi Fi 𝑛𝑖 𝑥𝑖 ni xi2 0 5 0,093 0,093 0 0 1 12 0,222 0,315 12 12 2 14 0,259 0,574 28 56 3 8 0,148 0,722 24 72 4 7 0,130 0,852 28 112 5 4 0,074 0,926 20 100 6 2 0,037 0,963 12 72 7 1 0,019 0,982 7 49 10 1 0,019 1,001 10 100 Totaux 54 1,001 - 141 573 On effectue alors les calculs requis : ∑ 𝑛𝑖 𝑥𝑖 141 𝑁 = 54; 𝜇𝑥 = = = 2,61 𝑏𝑢𝑡𝑠; 𝑁 54 ∑ 𝑛𝑖 𝑥𝑖2 573 𝜎𝑥2 = − 𝜇𝑥2 = − (2,61)2 = 3,80; 𝜎𝑥 = √𝜎𝑥2 = 1,95 𝑏𝑢𝑡 𝑁 54 III.3. Autres mesures de dispersion Nous en étudions deux : Y écart semi-interquartile et le coefficient de variation. III.3.1 Écart semi-Interquartile Q Est défini par la formule suivante : 𝑄3 − 𝑄1 𝑄= 2 Q mesure la moitié de l'étendue de la moitié centrale des données. On pourrait écrire : (𝑄3 − 𝑄2 ) + (𝑄2 − 𝑄1 ) 𝑄= 2 Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 59 Exemple Trouver l'écart semi-interquartile des distributions de fréquences des variables statistiques X , Y, W d e l'exemple II.1. Solution : a ) Il faut d'abord trouver 𝑄3 𝑒𝑡 𝑄1. Puisque dans le cas de cette variable statistique X on a des données rangées : 10 x 25 Q1 = C25 = donnée dont le rang est l′ entierqui suit ( ) 100 Q1 = 3e donnée = 31 10 x 75 Q3 = C75 = donnée dont le rang est l′ entierqui suit ( ) 100 Q3 = 8e donnée = 39 𝑄3 −𝑄1 39−31 Alors : Q(X) = = =4 2 2 b ) Pour la variable statistique Y où on a des données condensées 55 x 25 Q1 = C25 = donnée dont le rang est l′ entierqui suit ( ) 100 Q1 = 14e donnée = 16 55 x 75 Q3 = C75 = donnée dont le rang est l′ entierqui suit ( ) 100 Q3 = 42e donnée = 20 𝑄3 −𝑄1 20−16 Alors : Q(Y) = = =2 2 2 c ) Pour la variable statistique W dont les données sont regroupées en classes, on a : 0,750 − 0,723 Q3 = C75 = 70 + ( ) 10 = 71,6 0,170 0,250 − 0,234 Q1 = C25 = 50 + ( ) 10 = 50,7 0,234 𝑄3 −𝑄1 71,6−50,7 Alors : Q(W) = = = 10,4 2 2 Naturellement, plus Q est petit, plus la moitié centrale des données est concentrée. Il s'agit ici encore d'une manière de mesurer la dispersion, manière qui a ses avantages et ses inconvénients. Notons les principales caractéristiques de l'écart semi-interquartile : Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et Statistiques 60 1. Il est simple à calculer et à interpréter. 2. Il ne tient pas compte de toutes les données ; il n'est donc pas influencé par les données extrêmes. 3. Il est utilisé lorsque la distribution de fréquences est fortement dissymétrique, lorsque la médiane est préférée à la moyenne comme mesure de tendance centrale. 4. Sa valeur est moins stable que celle de la variance ou de l'écart-type. 5. Il est peu utilisé en général. III.3.2 Coefficient de variation On appelle coefficient de variation d'une variable statistique X le nombre suivant, et on le note par CV: 𝜎 𝐶𝑉 = 100 (population) 𝜇 Ou 𝑠 𝐶𝑉 = 100 (échantillon) 𝑥̅ Le rapport 𝜎⁄𝜇 ou 𝑠⁄𝑥̅ est multiplié par 100 pour ainsi l’exprimer en pourcentage. C’est une mesure de dispersion relative. Ce coefficient de variation est un indicateur de l’homogénéité de la population. on considère que si 𝐶𝑉 < à 15%, la population et homogène et si 𝐶𝑉 > à 15%, la population et dispersée. Exemple Trouver les coefficients de variation des variables statistiques X , Y et W d e s exemples II.1. Solution : On a calculé aux deux exemples cités : 𝜇𝑥 = 3 4 , 5 ; σx = 5 , 6 𝜇𝑦 =18,6; σy =4,l 𝜇𝑤 = 6 l , 0 σw = 14,2 Alors : σ σy σ 𝐶𝑉(𝑋) = 𝜇x 100 = 16,2%; 𝐶𝑉(𝑌) = 𝜇 100 = 22,0%; 𝐶𝑉(𝑊) = 𝜇w 100 = 23,3% 𝑥 𝑦 𝑤 III.4. MESURES DE FORME Il peut être intéressant de s'attarder à la forme de la courbe de distribution de fréquences. Deux éléments de cette forme vont nous intéresser: la symétrie par rapport à un axe central et l'aplatissement de la courbe. Jimmy Kalenga Kaunde Kasongo N. Bach.2 POLYTECH PROSTAT Probabilité et

Cours de Statistique Bach 2 UMAPON 2020-2021 PDF

Document Details

Tags

Related

Summary

Full Transcript