Chapitre 1 Statistiques 2024-2025 PDF
Document Details
Uploaded by FrugalJasper7430
Université de Poitiers
Tags
Summary
Le chapitre 1 présente une introduction aux concepts de base des statistiques et des pourcentages. Il comprend des rappels importants sur les pourcentages, ainsi que des exemples et des exercices associés, ce qui en fait un bon guide pour les débutants.
Full Transcript
VARIABLES ET REPRÉSENTATIONS I. Rappels sur les pourcentages Définition 1.1 Pourcentage : proportion pour cent unités, cent éléments. Quantité correspondant à cette α proportion. 1 L’expression α% désigne le rapport....
VARIABLES ET REPRÉSENTATIONS I. Rappels sur les pourcentages Définition 1.1 Pourcentage : proportion pour cent unités, cent éléments. Quantité correspondant à cette α proportion. 1 L’expression α% désigne le rapport. 100 N.B. Un pourcentage est en général compris entre 0 et 100. Par extension, il peut dépasser 100 lorsque cela a du sens. Exemple 1.2 — Quel est le plus fort pourcentage : 287 parmi 492 ou 1197 parmi 2052 ? — En L1, il y a 111 garçons et 139 filles. Quels sont les pourcentages ? — Ce lanceur de javelot a effectué un lancer à 110% de sa capacité maximale. Sens ou pas sens ? — Ce lanceur de javelot a effectué un lancer à 110% de son ancien record. Sens ou pas sens ? — Un salarié voit sa rémunération passer de 1678, 49e à 1821, 56e. Quel a été le pourcen- tage d’augmentation ? — Une entreprise a vu ses ventes du mois passer de 18215, 60e à 16784, 90e. Quel a été le pourcentage de la baisse ? — Une entreprise a vu ses ventes baisser de 10% entre juillet et août. Quel doit être le pourcentage d’augmentation entre août et septembre pour retrouver le niveau de juillet ? — Le prix d’un bien a augmenté du même pourcentage chaque année entre 2016 et 2022. L’augmentation globale était, entre 2016 et 2022, de 18%. Quel était le pourcentage d’augmentation pendant chacune des six années ? Proposition 1.3 (Pourcentages et variations) Appliquer une augmentation de α% à une quantité consiste à la multiplier par un cœfficient α multiplicateur q = 1 + r = 1 + 100. Appliquer une baisse de α% à une quantité consiste à la multiplier par un cœfficient multipli- α cateur q = 1 − 100. N.B. Les taux de variation d’une quantité ne s’ajoutent pas. Exemple 1.4 — Quel est le cœfficient multiplicateur correspondant à une augmentation de 5% ? De 10% ? 1. Dictionnaire Larousse. 2. Population statistique 2 — Quel est le cœfficient multiplicateur correspondant à deux augmentations successives de 5% ? — Quel est le cœfficient multiplicateur correspondant à une baisse de 5% ? De 10% ? — Quel est le cœfficient multiplicateur correspondant à deux baisses successives de 5% ? — Quel est le cœfficient multiplicateur correspondant à une augmentation de 10% suivie d’une baisse de 10% ? — Quel est le cœfficient multiplicateur correspondant à dix augmentations successives de 10% ? II. Population statistique Définition 2.1 ”Parmi les thèmes à propos desquels les statisticiens ne sont pas d’accord, se trouve la définition de leur science.” 2 Maurice G. Kendall (1907-1983) Le statisticien Walter F. Willcox a recensé, en 1935 3 , une collection de 115 définitions du terme ”statistics”. Walter F. Willcox (1861-1964) Depuis cette époque, les techniques et méthodes ont évolué, notamment avec les outils de calcul numériques. Il convient néanmoins de faire une distinction entre la statistique et les statistiques. 2. Maurice G. Kendall, The advanced theory of statistics, vol. I (1945) 3. W. F. Willcox, Definitions of statistics, Rev. Inst. Int. Stat. 3, 388-399 2. Population statistique 3 — La statistique est un ensemble de méthodes scientifiques qui ont pour objet la col- lecte, le traitement et l’interprétation de données d’observation relatives à un groupe d’individus. La statistique peut être considérée comme une branche des mathématiques appliquées, ou au contraire comme une discipline à part entière. Elle fait partie de la Science des Données (Data Science). — Les statistiques sont des résultats numériques, auxquels conduit l’application de ces méthodes. Ces données chiffrées peuvent être fausses, mal recueillies ou mal interprétées, mais le processus technique utilisé n’est pas en cause. ”I only believe in statistics that I doctored myself.” Sir Winston Churchill (1874-1965) N.B. — La statistique permet d’obtenir des résultats formalisés : valeurs numériques, tableaux, graphes. Le choix de la méthode la plus appropriée et l’interprétation des résultats dépendent de l’utilisateur de ces données. — Une première manière d’exploiter les données consiste à résumer les informations col- lectées pour rendre la situation plus lisible : c’est le domaine de la statistique descriptive. Une autre façon d’aborder les choses consiste, sous certaines hypothèses, à utiliser les données d’un échantillon pour obtenir des propriétés concernant une population plus large que celle étudiée : on parle alors de statistique inférentielle. — La statistique joue un rôle important en économie, aussi bien au niveau des états que des agents économiques (entreprises, citoyens,...) : elle renseigne sur la conjoncture, permet d’établir des prévisions, et peut représenter un outil d’information et de prise de décision. Exemple 2.2 — Dans une promotion d’étudiants de licence 1, la moyenne à l’examen était de 9, 97. Peut on dire que la promotion est homogène ? — Dans une ville dont la population est restée constante, on a constaté une augmentation de 200% du nombre de foyers équipés de panneaux solaires en un an. Est-ce le signe d’une énorme expansion de l’équipement des foyers pour ce type de matériel ? Que conclure ? — L’an dernier, la dette du pays avait augmenté de 20%. Cette année, elle a augmenté de 19%. Le gouvernement se félicite de cette amélioration, l’opposition dénonce une 3. Caractères statistiques 4 dégradation de la situation. Que dire ? Définition 2.3 On appelle population statistique l’ensemble servant de support à une enquête statistique. C’est l’ensemble de référence. Tout élément de la population est appelé individu, ou unité statistique. L’effectif total est le nombre d’individus observés. On le note en général n. Remarque 2.4 Le terme de population ne s’applique pas uniquement à un ensemble d’êtres humains. Il peut s’agir : — d’objets matériels ou assimilés (ensemble des chambres universitaires sur la ville de Lille au 31/08/2024) — de flux (demandes de bourses déposées par les étudiants de l’Université de Strasbourg, en septembre 2023) — de biens immatériels (consultations au CHU de Poitiers durant le premier semestre 2024) — d’éléments abstraits (infractions au Code de la Route en Bourgogne en 2023) N.B. Il est essentiel de définir avec précision la population étudiée : la fiabilité des résultat en dépend. Exemple 2.5 Choisir pour population ”le personnel de l’entreprise E” n’est pas suffisamment précis : quelle est la date de l’enquête, les intérimaires sont-ils comptés,... ? La population ”les personnes de nationalité française au 03/09/2024” est-elle bien définie ? III. Caractères statistiques Définition 3.1 — Un caractère est un aspect particulier de l’individu que l’on étudie. Il permet de classer en différents sous-ensembles une population donnée. On emploie généralement le terme de variable pour désigner un caractère. — Les modalités sont les différentes valeurs possibles d’un caractère. Les différentes mo- dalités d’un caractère doivent être imcompatibles entre elles, exhaustives, et sans am- biguı̈té : chaque individu correspond toujours à une et une seule modalité. La valeur relevée pour un individu concernant un caractère est désignée par mesure, ou observa- tion : une observation correspond à une des différentes modalités. Exemple 3.2 — L’étude sur le personnel d’une entreprise peut porter sur différents caractères : âge, sexe, fonction, salaire, ancienneté, lieu d’exercice... — Pour le caractère ”sexe”, il y a deux modalités possibles : masculin et féminin. — Pour le caractère ”salaire”, il peut y avoir un nombre à priori infini de modalités : toutes les valeurs entre un minimum et un maximum connus sont possibles. On effectuera dans ce cas des regroupements pour avoir une étude significative. 3. Caractères statistiques 5 Définition 3.3 Un caractère est quantitatif si ses modalités sont mesurables, c’est à dire exprimées par des va- leurs numériques correspondant à une quantité. Parmi les variables quantitatives, on distingue : — les variables discrètes, qui peuvent prendre un nombre fini (ou dénombrable) de valeurs (souvent entières, mais pas systématiquement). — les variables continues, qui peuvent prendre toutes les valeurs d’un intervalle donné. Un caractère est qualitatif si ses modalités ne sont pas mesurable, et sont la constatation d’un état. On peut distinguer : — les variables qualitatives ordinales, lorsqu’il existe une relation d’ordre entre les différentes modalités. — les variables qualitatives nominales, s’il n’y a pas d’ordre. Variables Quantitatives Qualitatives Discrètes Continues Nominales Ordinales - Nombre d’enfants - Age - Sexe - Niveau d’études - Heures de cours - Salaire - Lieu d’habitation - Niveau de pratique d’un sport Remarque 3.4 On considère en général qu’une variable quantitative est continue lorsqu’elle peut prendre des valeurs décimales. Exemple : ce qui concerne temps, espace, masse, monnaie,... Exercice 3.5 Le tableau suivant regroupe des informations sur les six villes de France les plus peuplées (population légale au 01/01/2022, source INSEE) : Ville Nb. d’habitans (en millers) Superficie (en km2 ) Département Situation maritime (∗ ) Paris 2165, 4 105, 40 75 0 Marseille 877, 1 240, 62 13 1 Lyon 529, 6 47, 87 69 0 Toulouse 498, 6 118, 30 31 0 Nice 345, 5 71, 92 06 1 Nantes 324, 0 65, 19 44 0 (∗ ) : code 1 pour ville maritime, 0 sinon. Q1. Quelle est la population statistique étudiée ? Son effectif ? Q2. Quelles sont les variables ? De quel type sont-elles ? 4. Effectifs, fréquences 6 IV. Effectifs, fréquences Définition 4.1 (Sommes, produits) — Soient x0 , x1 ,..., xk des nombres réels. La notation X k xi i=0 se lit : somme des termes de la forme xi , lorsque l’indice i varie de 0 à k. — Soient y0 , y1 ,..., yk des nombres réels. La notation Y k yi i=0 se lit : produit des termes de la forme yi , lorsque l’indice i varie de 0 à k. Exemple 4.2 On donne x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 y0 y1 y2 y3 y4 -2 7 4 3 5 -4 -3 3 11 -2 5 -3 5 7 -6 Calculer X 9 X 7 X 4 X 4 X 5 X 3 Y 4 Y 4 Y 4 xi xi (3xi ) (xi + yi ) xi 2 (xi + yi )2 yi (2yi ) (xi yi ) i=0 i=2 i=0 i=2 i=1 i=0 i=0 i=0 i=1 Définition 4.3 Soit X une variable statistique, on notera x1 , x2 ,..., xk les k modalités possibles de cette variable. — A chaque modalité xi correspond un effectif ni. La somme des effectifs de chaque mo- dalité est l’effectif total de la population : X k n= ni. i=1 ni — La fréquence d’une modalité désigne sa proportion dans la population : fi =. On a n X k toujours 0 ≤ fi ≤ 1, et fi = 1. i=1 N.B. Les fréquences peuvent s’exprimer sous forme de pourcentage. Dans ce cas, for- Xk mellement, fi = 100%. i=1 Exemple 4.4 Une étude sur le nombre d’enfants par foyer d’une ville donne les résultats suivants : 4. Effectifs, fréquences 7 Nb. d’enfants (xi ) 0 1 2 3 4 5 6 7 8 Effectifs (ni ) 351 458 501 291 62 11 2 0 1 Il y a neuf modalités : x1 = 0, x1 = 1,..., x9 = 8, d’effectifs respectifs n1 = 351, n2 = 458,..., n9 = 1. Lecture : — il y a 351 foyers sans enfants, 458 foyers avec 1 enfant, etc... X9 — il y a au total n = ni = 1677 foyers dans la ville. i=1 Le tableau des fréquences serait : Nb. d’enfants (xi ) 0 1 2 3 4 5 6 7 8 Fréquences (fi ) 0,209 0,273 0,299 0,173 0,037 0,007 0,001 0,000 0,001 Fréquences en % 20,93 27,31 29,87 17,35 3,70 0,66 0,12 0,00 0,06 N.B. La précision et le format d’affichage dépendent du nombre de décimales retenues. Définition 4.5 Soit X une variable quantitative, dont les modalités sont ordonnées dans le sens croissant. — On définit les effectifs cumulés (croissants) : X i Ni = nm = n1 + n2 + · · · + ni. m=1 C’est l’effectif correspondant à toutes les modalités de x1 à xi. — De la même façon, on définit les fréquences cumulées croissantes : X i Fi = fm = f1 + f2 + · · · + fi. m=1 N.B. On a pour la dernière modalité : Nk = n et Fk = 1. Exemple 4.6 Sur l’exemple précédent, on aurait : Nb. d’enfants (xi ) 0 1 2 3 4 5 6 7 8 Effectifs (ni ) 351 458 501 291 62 11 2 0 1 Eff. cumulés (Ni ) 351 809 1310 1601 1663 1674 1676 1676 1677 Fr. cum. (Fi ) en % 20,93 48,24 78,12 95,47 99,17 99,82 99,94 99,94 100,00 Lecture : dans 809 foyers, il y a au plus un enfant, dans 99, 17% des foyers, il y a au plus 4 enfants. Définition 4.7 Dans le cas de variables continues, les valeurs possibles étant en nombre infini, on procède à des regroupements par classes, correspondant à des intervalles. On prend en général ces intervalles 5. Représentations graphiques 8 ouverts à droite, et fermés à gauche. L’amplitude d’une classe correspond à la différence entre ses bornes, lorsqu’elles sont finies. N.B. Un découpage en classes est toujours arbitraire, il dépend du choix fait au moment de l’étude. Remarque 4.8 — Les bornes des classes ne sont pas toujours finies. Par exemple, pour une étude sur le salaire mensuel, on pourra faire un regroupement des données selon les classes suivantes : [400, 700[, [700, 1000[, [1000, 1200[, [1200, 1300[, [1300, 1500[, [1500, 1800[, [1800, 2500[, [2500, 3500[, [3500, +∞[. — On essaie, dans la mesure du possible, d’avoir des effectifs de même ordre de grandeur dans chaque classe. S’il y a une dizaine d’observations dans une classe, et plusieurs millions dans une autre, l’interprétation risque de ne pas être significative. — Il n’y a pas de règle absolue concernant le nombre de classes c. Choix fréquemment utilisés : c le plus petit entier tel que 2c > n (effectif total), ou encore valeur de c telle que 2c est la plus proche de n. xmax − xmin — L’amplitude théorique de chaque classe est alors donnée par , où xmin et c xmax désignent respectivement la plus petite et la plus grande valeur possible pour X, lorsqu’elles sont finies. — On peut imposer au classes des bornes entières, pour la lisibilité des résultats. Exemple 4.9 Une étude sur l’âge de 40 personnes a recueilli les données brutes suivantes : 38 34 34 29 52 45 34 33 23 36 27 25 37 53 22 35 41 39 28 25 19 54 31 24 38 46 28 56 27 38 23 52 44 37 43 56 29 37 17 61 On a n = 40 données. On sait que 25 = 32 et 26 = 64 : on peut faire un choix de découpage en 6 classes. L’amplitude des classes sera recherchée en déterminant l’étendue de la série : les données vont 61 − 17 de 17 à 61, l’amplitude théorique des classes est donc de = 7, 33. On peut choisir des 6 classes d’amplitude 7, et faire un ajustement sur la dernière. On aurait alors : Classe d’âge [17; 24[ [24; 31[ [31; 38[ [38; 45[ [45; 52[ 52 et plus Effectifs (ni ) 5 9 10 7 2 7 Fréquences (fi ) 12, 5% 22, 5% 25, 0% 17, 5% 5, 0% 17, 5% V. Représentations graphiques Définition 5.1 Dans le cas de variables qualitatives, les notions d’effectifs cumulés et de fréquences cumulées disparaissent. Les représentations graphiques les plus fréquemment utilisées sont le diagramme à barres, le diagramme à bandes, et le diagramme circulaire (ou semi-circulaire). 5. Représentations graphiques 9 — Diagramme à barres verticales. Les modalités sont placées en abscisse, les effectifs ou les fréquences sont en ordonnée. On trace des rectangles, de bases identiques, de hauteurs proportionnelles aux effectifs. N.B. On peut échanger les rôles des abscisses et des ordonnées, et avoir un diagramme à barres horizontales. — Diagramme à bandes. On partage une bande en autant de secteurs que de modalités, les longueurs de chaque secteur sont proportionnelles aux fréquences des modalités. N.B. On peut utiliser ces deux premiers types de représentation pour illustrer le croise- ment de deux questions. — Diagramme circulaire. L’effectif total correspond à un disque. Chaque modalité est représentée par un secteur angulaire, proportionnel à sa fréquence. N.B. Pour un diagramme semi-circulaire, on utilise un demi-disque. Exemple 5.2 Une enquête parmi les habitants d’une ville sur l’utilisation du bus a donné les résultats sui- vants : Jamais Raremement Occasionnelement Régulièrement Total Hommes 275 302 72 53 702 Femmes 311 351 92 47 801 Total 586 653 164 100 1503 En % 38,99% 43,45% 10,91% 6,65% 100,00% — Ce premier graphique permet de voir le répartition hommes/femmes, selon les différents modes d’utilisation du bus. 400 Utilisation du bus 53,75% 53,07% 46,25% 300 46,93% Hommes 200 Femmes 100 56,10% 43,90% 53,00% 47,00% 0 Régulièrement Jamais Rarement Occasionnellement — On visualise cette fois le nombre de personnes par mode d’utilisation du bus, en distin- guant hommes et femmes. 5. Représentations graphiques 10 Utilisation du bus (hommes et femmes) 311 351 92 47 Jamais Femmes Rarement Occasionnellement Régulièrement 275 302 72 53 Hommes 0 100 200 300 400 500 600 700 800 900 — Le diagramme circulaire montre la répartition des différents modes d’utilisation du bus, pour la population totale. Utilisation du bus (population totale) Jamais Rarement Occasionnellement 38, 99% Régulièrement 6, 65% 43, 45% 10, 91% Définition 5.3 Pour des caractères quantitatifs, on utilises les représentations différentielles (ou par ef- fectifs/fréquences), correspondants aux effectifs ou aux fréquences, et les représentations cumulatives, correspondant aux effectifs ou fréquences cumulés. — Pour une série dont la variable est discrète, on peut utiliser un diagramme en bâtons, dans le même esprit que le diagramme à barres. Exemple : une enquête auprès de 2000 foyers sur le type de logement occupé (nombre de pièces principales d’habitations) a donné les résultats suivants : Nb. de pièces principales 1 2 3 4 5 6 Nb. de foyers 193 279 527 713 203 85 En % 9,65 13,95 26,35 35,65 10,15 4,25 Représentation : 5. Représentations graphiques 11 750 700 650 600 550 500 Nb. de foyers 450 400 350 300 250 200 150 100 50 0 0 1 2 3 4 5 6 7 Nb. de pièces Dans le cas de données discrètes, la courbe cumulative est une fonction en escalier, qui permet de visualiser l’évolution des effectifs cumulés. On définit une fonction de répartition F , telle que F (x) désigne la proportion d’observations inférieures ou égales à x. Sur l’exemple précédent, on aurait : Nb. de pièces principales 1 2 3 4 5 6 Nb. de foyers 193 279 527 713 203 85 Foyers cumulés 193 472 999 1712 1915 2000 Fréq. cumulées (en %) 9,65 23,60 49,95 85,60 95,75 100,00 Représentation : 100 90 80 70 Fréq. cumulée 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 Nb. de pièces Lecture : 23, 60% des foyers ont au plus deux pièces principales (0, 1 ou 2), 1712 foyers ont au plus quatre pièces, 100% des foyers en ont au plus 6, 100% en ont au plus 7, etc... 5. Représentations graphiques 12 — Pour une série dont la variable est continue, on utilise un histogramme. Le principe de l’histogramme est une représentation par des rectangles, dont les aires (et non pas les hauteurs) sont proportionnelles aux fréquences. Cette représentation fait une hypothèse implicite (mais non démontrée) de répartition uniforme des observations à l’intérieur d’une même classe. Dans le cas le plus simple, si toutes les classes ont même amplitude, les hauteurs des rectangles sont proportionnelles aux effectifs. Si les classes sont d’amplitudes différentes, on peut introduire la notion de densité : di = ni /ai , où ni et ai sont l’effectif et l’am- plitude de la classe i, ou la notion de fréquence corrigée : f ci = fi /ai × min{ai }, qui ramène les fréquences à des classes d’amplitudes comparables. Dans ce cas, les hauteurs des rectangles sont proportionnelles aux densités, ou aux fréquences corrigées. Exemple : les notes d’une promotion de 550 étudiants ont été relevées, et réparties selon 9 classes, d’amplitudes pouvant varier de 1 à 4. Note : xi [0; 4[ [4; 6[ [6; 8[ [8; 10[ [10; 11[ [11; 12[ [12; 14[ [14; 16[ [16; 20[ Effectif : ni 20 60 90 100 70 80 70 40 20 Amplitude : ai 4 2 2 2 1 1 2 2 4 Densité : di 5 30 45 50 70 80 35 20 5 Fréq. (%) : fi 3,64 10,91 16,36 18,18 12,73 14,55 12,73 7,27 3,64 Fr. cor. (%) : f ci 0,91 5,46 8,18 9,09 12,73 14,55 6,37 3,64 0,91 Construction de l’histogramme : 9 rectangles, dont les hauteurs sont proportionnelles aux fréquences corrigées. Le rectangle correspondant à la classe [4; 6[ est ainsi 6 fois plus haut que celui de la classe [0; 4[ alors que l’effectif est le triple : il faut tenir compte du fait que la classe [4; 6[ a une amplitude deux fois moins élevée. 14 12 Fréq. corrigée en% 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18 20 Notes Lecture : on a fait apparaitre ici les fréquences corrigées. Pour les classes d’amplitude 5. Représentations graphiques 13 1, cela correspond aux fréquences. Pour les autres, on garde l’hypothèse de répartition uniforme. Pour la première classe, on a 3, 64%, que l’on répartit sur quatre classes fictives d’amplitude 1 chacune, avec pour chacune une fréquence corrigée de 0, 91%. Pour des données continues, la courbe cumulative est une fonction affine par morceaux et continue. La fonction de répartition F est définie de la même façon que dans le cas discret. Elle s’obtient en affectant aux limites supérieures des classes les fréquences cumulées correspondantes. Sur l’exemple précédent, on aurait : Note [0; 4[ [4; 6[ [6; 8[ [8; 10[ [10; 11[ [11; 12[ [12; 14[ [14; 16[ [16; 20[ Sup 4 6 8 10 11 12 14 16 20 Fr. cum. (%) 3,64 14,55 30,91 49,09 61,82 76,36 89,09 96,36 100,00 On fait là encore l’hypothèse d’augmentation régulière des fréquences cumulées à l’intérieur des classes. 100 90 80 70 Fréq. cumulées en% 60 50 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 Notes Exemple 5.4 Supposons que l’on ait xi [0; 2000[ [2000; 4000[ [4000; 5000[ [5000; 6000[ [6000; 8000[ [8000; 10000[ ni 6 26 21 23 20 4 ai fi en % f ci en % Pour calculer les f ci , on divise les fi par les ai et on multiplie par 1000 (plus petite ai ).