Chapitre 1 Statistiques 2024-2025 PDF

VARIABLES ET REPRÉSENTATIONS I. Rappels sur les pourcentages Définition 1.1 Pourcentage : proportion pour cent unités, cent éléments. Quantité correspondant à cette α proportion. 1 L’expression α% désigne le rapport. 100 N.B. Un pourcentage est en général compris entre 0 et 100. Par extension, il peut dépasser 100 lorsque cela a du sens. Exemple 1.2 — Quel est le plus fort pourcentage : 287 parmi 492 ou 1197 parmi 2052 ? — En L1, il y a 111 garçons et 139 filles. Quels sont les pourcentages ? — Ce lanceur de javelot a effectué un lancer à 110% de sa capacité maximale. Sens ou pas sens ? — Ce lanceur de javelot a effectué un lancer à 110% de son ancien record. Sens ou pas sens ? — Un salarié voit sa rémunération passer de 1678, 49e à 1821, 56e. Quel a été le pourcen- tage d’augmentation ? — Une entreprise a vu ses ventes du mois passer de 18215, 60e à 16784, 90e. Quel a été le pourcentage de la baisse ? — Une entreprise a vu ses ventes baisser de 10% entre juillet et août. Quel doit être le pourcentage d’augmentation entre août et septembre pour retrouver le niveau de juillet ? — Le prix d’un bien a augmenté du même pourcentage chaque année entre 2016 et 2022. L’augmentation globale était, entre 2016 et 2022, de 18%. Quel était le pourcentage d’augmentation pendant chacune des six années ? Proposition 1.3 (Pourcentages et variations) Appliquer une augmentation de α% à une quantité consiste à la multiplier par un cœfficient α multiplicateur q = 1 + r = 1 + 100. Appliquer une baisse de α% à une quantité consiste à la multiplier par un cœfficient multipli- α cateur q = 1 − 100. N.B. Les taux de variation d’une quantité ne s’ajoutent pas. Exemple 1.4 — Quel est le cœfficient multiplicateur correspondant à une augmentation de 5% ? De 10% ? 1. Dictionnaire Larousse. 2. Population statistique 2 — Quel est le cœfficient multiplicateur correspondant à deux augmentations successives de 5% ? — Quel est le cœfficient multiplicateur correspondant à une baisse de 5% ? De 10% ? — Quel est le cœfficient multiplicateur correspondant à deux baisses successives de 5% ? — Quel est le cœfficient multiplicateur correspondant à une augmentation de 10% suivie d’une baisse de 10% ? — Quel est le cœfficient multiplicateur correspondant à dix augmentations successives de 10% ? II. Population statistique Définition 2.1 ”Parmi les thèmes à propos desquels les statisticiens ne sont pas d’accord, se trouve la définition de leur science.” 2 Maurice G. Kendall (1907-1983) Le statisticien Walter F. Willcox a recensé, en 1935 3 , une collection de 115 définitions du terme ”statistics”. Walter F. Willcox (1861-1964) Depuis cette époque, les techniques et méthodes ont évolué, notamment avec les outils de calcul numériques. Il convient néanmoins de faire une distinction entre la statistique et les statistiques. 2. Maurice G. Kendall, The advanced theory of statistics, vol. I (1945) 3. W. F. Willcox, Definitions of statistics, Rev. Inst. Int. Stat. 3, 388-399 2. Population statistique 3 — La statistique est un ensemble de méthodes scientifiques qui ont pour objet la col- lecte, le traitement et l’interprétation de données d’observation relatives à un groupe d’individus. La statistique peut être considérée comme une branche des mathématiques appliquées, ou au contraire comme une discipline à part entière. Elle fait partie de la Science des Données (Data Science). — Les statistiques sont des résultats numériques, auxquels conduit l’application de ces méthodes. Ces données chiffrées peuvent être fausses, mal recueillies ou mal interprétées, mais le processus technique utilisé n’est pas en cause. ”I only believe in statistics that I doctored myself.” Sir Winston Churchill (1874-1965) N.B. — La statistique permet d’obtenir des résultats formalisés : valeurs numériques, tableaux, graphes. Le choix de la méthode la plus appropriée et l’interprétation des résultats dépendent de l’utilisateur de ces données. — Une première manière d’exploiter les données consiste à résumer les informations col- lectées pour rendre la situation plus lisible : c’est le domaine de la statistique descriptive. Une autre façon d’aborder les choses consiste, sous certaines hypothèses, à utiliser les données d’un échantillon pour obtenir des propriétés concernant une population plus large que celle étudiée : on parle alors de statistique inférentielle. — La statistique joue un rôle important en économie, aussi bien au niveau des états que des agents économiques (entreprises, citoyens,...) : elle renseigne sur la conjoncture, permet d’établir des prévisions, et peut représenter un outil d’information et de prise de décision. Exemple 2.2 — Dans une promotion d’étudiants de licence 1, la moyenne à l’examen était de 9, 97. Peut on dire que la promotion est homogène ? — Dans une ville dont la population est restée constante, on a constaté une augmentation de 200% du nombre de foyers équipés de panneaux solaires en un an. Est-ce le signe d’une énorme expansion de l’équipement des foyers pour ce type de matériel ? Que conclure ? — L’an dernier, la dette du pays avait augmenté de 20%. Cette année, elle a augmenté de 19%. Le gouvernement se félicite de cette amélioration, l’opposition dénonce une 3. Caractères statistiques 4 dégradation de la situation. Que dire ? Définition 2.3 On appelle population statistique l’ensemble servant de support à une enquête statistique. C’est l’ensemble de référence. Tout élément de la population est appelé individu, ou unité statistique. L’effectif total est le nombre d’individus observés. On le note en général n. Remarque 2.4 Le terme de population ne s’applique pas uniquement à un ensemble d’êtres humains. Il peut s’agir : — d’objets matériels ou assimilés (ensemble des chambres universitaires sur la ville de Lille au 31/08/2024) — de flux (demandes de bourses déposées par les étudiants de l’Université de Strasbourg, en septembre 2023) — de biens immatériels (consultations au CHU de Poitiers durant le premier semestre 2024) — d’éléments abstraits (infractions au Code de la Route en Bourgogne en 2023) N.B. Il est essentiel de définir avec précision la population étudiée : la fiabilité des résultat en dépend. Exemple 2.5 Choisir pour population ”le personnel de l’entreprise E” n’est pas suffisamment précis : quelle est la date de l’enquête, les intérimaires sont-ils comptés,... ? La population ”les personnes de nationalité française au 03/09/2024” est-elle bien définie ? III. Caractères statistiques Définition 3.1 — Un caractère est un aspect particulier de l’individu que l’on étudie. Il permet de classer en différents sous-ensembles une population donnée. On emploie généralement le terme de variable pour désigner un caractère. — Les modalités sont les différentes valeurs possibles d’un caractère. Les différentes mo- dalités d’un caractère doivent être imcompatibles entre elles, exhaustives, et sans am- biguı̈té : chaque individu correspond toujours à une et une seule modalité. La valeur relevée pour un individu concernant un caractère est désignée par mesure, ou observa- tion : une observation correspond à une des différentes modalités. Exemple 3.2 — L’étude sur le personnel d’une entreprise peut porter sur différents caractères : âge, sexe, fonction, salaire, ancienneté, lieu d’exercice... — Pour le caractère ”sexe”, il y a deux modalités possibles : masculin et féminin. — Pour le caractère ”salaire”, il peut y avoir un nombre à priori infini de modalités : toutes les valeurs entre un minimum et un maximum connus sont possibles. On effectuera dans ce cas des regroupements pour avoir une étude significative. 3. Caractères statistiques 5 Définition 3.3 Un caractère est quantitatif si ses modalités sont mesurables, c’est à dire exprimées par des va- leurs numériques correspondant à une quantité. Parmi les variables quantitatives, on distingue : — les variables discrètes, qui peuvent prendre un nombre fini (ou dénombrable) de valeurs (souvent entières, mais pas systématiquement). — les variables continues, qui peuvent prendre toutes les valeurs d’un intervalle donné. Un caractère est qualitatif si ses modalités ne sont pas mesurable, et sont la constatation d’un état. On peut distinguer : — les variables qualitatives ordinales, lorsqu’il existe une relation d’ordre entre les différentes modalités. — les variables qualitatives nominales, s’il n’y a pas d’ordre. Variables Quantitatives Qualitatives Discrètes Continues Nominales Ordinales - Nombre d’enfants - Age - Sexe - Niveau d’études - Heures de cours - Salaire - Lieu d’habitation - Niveau de pratique d’un sport Remarque 3.4 On considère en général qu’une variable quantitative est continue lorsqu’elle peut prendre des valeurs décimales. Exemple : ce qui concerne temps, espace, masse, monnaie,... Exercice 3.5 Le tableau suivant regroupe des informations sur les six villes de France les plus peuplées (population légale au 01/01/2022, source INSEE) : Ville Nb. d’habitans (en millers) Superficie (en km2 ) Département Situation maritime (∗ ) Paris 2165, 4 105, 40 75 0 Marseille 877, 1 240, 62 13 1 Lyon 529, 6 47, 87 69 0 Toulouse 498, 6 118, 30 31 0 Nice 345, 5 71, 92 06 1 Nantes 324, 0 65, 19 44 0 (∗ ) : code 1 pour ville maritime, 0 sinon. Q1. Quelle est la population statistique étudiée ? Son effectif ? Q2. Quelles sont les variables ? De quel type sont-elles ? 4. Effectifs, fréquences 6 IV. Effectifs, fréquences Définition 4.1 (Sommes, produits) — Soient x0 , x1 ,..., xk des nombres réels. La notation X k xi i=0 se lit : somme des termes de la forme xi , lorsque l’indice i varie de 0 à k. — Soient y0 , y1 ,..., yk des nombres réels. La notation Y k yi i=0 se lit : produit des termes de la forme yi , lorsque l’indice i varie de 0 à k. Exemple 4.2 On donne x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 y0 y1 y2 y3 y4 -2 7 4 3 5 -4 -3 3 11 -2 5 -3 5 7 -6 Calculer X 9 X 7 X 4 X 4 X 5 X 3 Y 4 Y 4 Y 4 xi xi (3xi ) (xi + yi ) xi 2 (xi + yi )2 yi (2yi ) (xi yi ) i=0 i=2 i=0 i=2 i=1 i=0 i=0 i=0 i=1 Définition 4.3 Soit X une variable statistique, on notera x1 , x2 ,..., xk les k modalités possibles de cette variable. — A chaque modalité xi correspond un effectif ni. La somme des effectifs de chaque mo- dalité est l’effectif total de la population : X k n= ni. i=1 ni — La fréquence d’une modalité désigne sa proportion dans la population : fi =. On a n X k toujours 0 ≤ fi ≤ 1, et fi = 1. i=1 N.B. Les fréquences peuvent s’exprimer sous forme de pourcentage. Dans ce cas, for- Xk mellement, fi = 100%. i=1 Exemple 4.4 Une étude sur le nombre d’enfants par foyer d’une ville donne les résultats suivants : 4. Effectifs, fréquences 7 Nb. d’enfants (xi ) 0 1 2 3 4 5 6 7 8 Effectifs (ni ) 351 458 501 291 62 11 2 0 1 Il y a neuf modalités : x1 = 0, x1 = 1,..., x9 = 8, d’effectifs respectifs n1 = 351, n2 = 458,..., n9 = 1. Lecture : — il y a 351 foyers sans enfants, 458 foyers avec 1 enfant, etc... X9 — il y a au total n = ni = 1677 foyers dans la ville. i=1 Le tableau des fréquences serait : Nb. d’enfants (xi ) 0 1 2 3 4 5 6 7 8 Fréquences (fi ) 0,209 0,273 0,299 0,173 0,037 0,007 0,001 0,000 0,001 Fréquences en % 20,93 27,31 29,87 17,35 3,70 0,66 0,12 0,00 0,06 N.B. La précision et le format d’affichage dépendent du nombre de décimales retenues. Définition 4.5 Soit X une variable quantitative, dont les modalités sont ordonnées dans le sens croissant. — On définit les effectifs cumulés (croissants) : X i Ni = nm = n1 + n2 + · · · + ni. m=1 C’est l’effectif correspondant à toutes les modalités de x1 à xi. — De la même façon, on définit les fréquences cumulées croissantes : X i Fi = fm = f1 + f2 + · · · + fi. m=1 N.B. On a pour la dernière modalité : Nk = n et Fk = 1. Exemple 4.6 Sur l’exemple précédent, on aurait : Nb. d’enfants (xi ) 0 1 2 3 4 5 6 7 8 Effectifs (ni ) 351 458 501 291 62 11 2 0 1 Eff. cumulés (Ni ) 351 809 1310 1601 1663 1674 1676 1676 1677 Fr. cum. (Fi ) en % 20,93 48,24 78,12 95,47 99,17 99,82 99,94 99,94 100,00 Lecture : dans 809 foyers, il y a au plus un enfant, dans 99, 17% des foyers, il y a au plus 4 enfants. Définition 4.7 Dans le cas de variables continues, les valeurs possibles étant en nombre infini, on procède à des regroupements par classes, correspondant à des intervalles. On prend en général ces intervalles 5. Représentations graphiques 8 ouverts à droite, et fermés à gauche. L’amplitude d’une classe correspond à la différence entre ses bornes, lorsqu’elles sont finies. N.B. Un découpage en classes est toujours arbitraire, il dépend du choix fait au moment de l’étude. Remarque 4.8 — Les bornes des classes ne sont pas toujours finies. Par exemple, pour une étude sur le salaire mensuel, on pourra faire un regroupement des données selon les classes suivantes : [400, 700[, [700, 1000[, [1000, 1200[, [1200, 1300[, [1300, 1500[, [1500, 1800[, [1800, 2500[, [2500, 3500[, [3500, +∞[. — On essaie, dans la mesure du possible, d’avoir des effectifs de même ordre de grandeur dans chaque classe. S’il y a une dizaine d’observations dans une classe, et plusieurs millions dans une autre, l’interprétation risque de ne pas être significative. — Il n’y a pas de règle absolue concernant le nombre de classes c. Choix fréquemment utilisés : c le plus petit entier tel que 2c > n (effectif total), ou encore valeur de c telle que 2c est la plus proche de n. xmax − xmin — L’amplitude théorique de chaque classe est alors donnée par , où xmin et c xmax désignent respectivement la plus petite et la plus grande valeur possible pour X, lorsqu’elles sont finies. — On peut imposer au classes des bornes entières, pour la lisibilité des résultats. Exemple 4.9 Une étude sur l’âge de 40 personnes a recueilli les données brutes suivantes : 38 34 34 29 52 45 34 33 23 36 27 25 37 53 22 35 41 39 28 25 19 54 31 24 38 46 28 56 27 38 23 52 44 37 43 56 29 37 17 61 On a n = 40 données. On sait que 25 = 32 et 26 = 64 : on peut faire un choix de découpage en 6 classes. L’amplitude des classes sera recherchée en déterminant l’étendue de la série : les données vont 61 − 17 de 17 à 61, l’amplitude théorique des classes est donc de = 7, 33. On peut choisir des 6 classes d’amplitude 7, et faire un ajustement sur la dernière. On aurait alors : Classe d’âge [17; 24[ [24; 31[ [31; 38[ [38; 45[ [45; 52[ 52 et plus Effectifs (ni ) 5 9 10 7 2 7 Fréquences (fi ) 12, 5% 22, 5% 25, 0% 17, 5% 5, 0% 17, 5% V. Représentations graphiques Définition 5.1 Dans le cas de variables qualitatives, les notions d’effectifs cumulés et de fréquences cumulées disparaissent. Les représentations graphiques les plus fréquemment utilisées sont le diagramme à barres, le diagramme à bandes, et le diagramme circulaire (ou semi-circulaire). 5. Représentations graphiques 9 — Diagramme à barres verticales. Les modalités sont placées en abscisse, les effectifs ou les fréquences sont en ordonnée. On trace des rectangles, de bases identiques, de hauteurs proportionnelles aux effectifs. N.B. On peut échanger les rôles des abscisses et des ordonnées, et avoir un diagramme à barres horizontales. — Diagramme à bandes. On partage une bande en autant de secteurs que de modalités, les longueurs de chaque secteur sont proportionnelles aux fréquences des modalités. N.B. On peut utiliser ces deux premiers types de représentation pour illustrer le croise- ment de deux questions. — Diagramme circulaire. L’effectif total correspond à un disque. Chaque modalité est représentée par un secteur angulaire, proportionnel à sa fréquence. N.B. Pour un diagramme semi-circulaire, on utilise un demi-disque. Exemple 5.2 Une enquête parmi les habitants d’une ville sur l’utilisation du bus a donné les résultats sui- vants : Jamais Raremement Occasionnelement Régulièrement Total Hommes 275 302 72 53 702 Femmes 311 351 92 47 801 Total 586 653 164 100 1503 En % 38,99% 43,45% 10,91% 6,65% 100,00% — Ce premier graphique permet de voir le répartition hommes/femmes, selon les différents modes d’utilisation du bus. 400 Utilisation du bus 53,75% 53,07% 46,25% 300 46,93% Hommes 200 Femmes 100 56,10% 43,90% 53,00% 47,00% 0 Régulièrement Jamais Rarement Occasionnellement — On visualise cette fois le nombre de personnes par mode d’utilisation du bus, en distin- guant hommes et femmes. 5. Représentations graphiques 10 Utilisation du bus (hommes et femmes) 311 351 92 47 Jamais Femmes Rarement Occasionnellement Régulièrement 275 302 72 53 Hommes 0 100 200 300 400 500 600 700 800 900 — Le diagramme circulaire montre la répartition des différents modes d’utilisation du bus, pour la population totale. Utilisation du bus (population totale) Jamais Rarement Occasionnellement 38, 99% Régulièrement 6, 65% 43, 45% 10, 91% Définition 5.3 Pour des caractères quantitatifs, on utilises les représentations différentielles (ou par ef- fectifs/fréquences), correspondants aux effectifs ou aux fréquences, et les représentations cumulatives, correspondant aux effectifs ou fréquences cumulés. — Pour une série dont la variable est discrète, on peut utiliser un diagramme en bâtons, dans le même esprit que le diagramme à barres. Exemple : une enquête auprès de 2000 foyers sur le type de logement occupé (nombre de pièces principales d’habitations) a donné les résultats suivants : Nb. de pièces principales 1 2 3 4 5 6 Nb. de foyers 193 279 527 713 203 85 En % 9,65 13,95 26,35 35,65 10,15 4,25 Représentation : 5. Représentations graphiques 11 750 700 650 600 550 500 Nb. de foyers 450 400 350 300 250 200 150 100 50 0 0 1 2 3 4 5 6 7 Nb. de pièces Dans le cas de données discrètes, la courbe cumulative est une fonction en escalier, qui permet de visualiser l’évolution des effectifs cumulés. On définit une fonction de répartition F , telle que F (x) désigne la proportion d’observations inférieures ou égales à x. Sur l’exemple précédent, on aurait : Nb. de pièces principales 1 2 3 4 5 6 Nb. de foyers 193 279 527 713 203 85 Foyers cumulés 193 472 999 1712 1915 2000 Fréq. cumulées (en %) 9,65 23,60 49,95 85,60 95,75 100,00 Représentation : 100 90 80 70 Fréq. cumulée 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 Nb. de pièces Lecture : 23, 60% des foyers ont au plus deux pièces principales (0, 1 ou 2), 1712 foyers ont au plus quatre pièces, 100% des foyers en ont au plus 6, 100% en ont au plus 7, etc... 5. Représentations graphiques 12 — Pour une série dont la variable est continue, on utilise un histogramme. Le principe de l’histogramme est une représentation par des rectangles, dont les aires (et non pas les hauteurs) sont proportionnelles aux fréquences. Cette représentation fait une hypothèse implicite (mais non démontrée) de répartition uniforme des observations à l’intérieur d’une même classe. Dans le cas le plus simple, si toutes les classes ont même amplitude, les hauteurs des rectangles sont proportionnelles aux effectifs. Si les classes sont d’amplitudes différentes, on peut introduire la notion de densité : di = ni /ai , où ni et ai sont l’effectif et l’am- plitude de la classe i, ou la notion de fréquence corrigée : f ci = fi /ai × min{ai }, qui ramène les fréquences à des classes d’amplitudes comparables. Dans ce cas, les hauteurs des rectangles sont proportionnelles aux densités, ou aux fréquences corrigées. Exemple : les notes d’une promotion de 550 étudiants ont été relevées, et réparties selon 9 classes, d’amplitudes pouvant varier de 1 à 4. Note : xi [0; 4[ [4; 6[ [6; 8[ [8; 10[ [10; 11[ [11; 12[ [12; 14[ [14; 16[ [16; 20[ Effectif : ni 20 60 90 100 70 80 70 40 20 Amplitude : ai 4 2 2 2 1 1 2 2 4 Densité : di 5 30 45 50 70 80 35 20 5 Fréq. (%) : fi 3,64 10,91 16,36 18,18 12,73 14,55 12,73 7,27 3,64 Fr. cor. (%) : f ci 0,91 5,46 8,18 9,09 12,73 14,55 6,37 3,64 0,91 Construction de l’histogramme : 9 rectangles, dont les hauteurs sont proportionnelles aux fréquences corrigées. Le rectangle correspondant à la classe [4; 6[ est ainsi 6 fois plus haut que celui de la classe [0; 4[ alors que l’effectif est le triple : il faut tenir compte du fait que la classe [4; 6[ a une amplitude deux fois moins élevée. 14 12 Fréq. corrigée en% 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18 20 Notes Lecture : on a fait apparaitre ici les fréquences corrigées. Pour les classes d’amplitude 5. Représentations graphiques 13 1, cela correspond aux fréquences. Pour les autres, on garde l’hypothèse de répartition uniforme. Pour la première classe, on a 3, 64%, que l’on répartit sur quatre classes fictives d’amplitude 1 chacune, avec pour chacune une fréquence corrigée de 0, 91%. Pour des données continues, la courbe cumulative est une fonction affine par morceaux et continue. La fonction de répartition F est définie de la même façon que dans le cas discret. Elle s’obtient en affectant aux limites supérieures des classes les fréquences cumulées correspondantes. Sur l’exemple précédent, on aurait : Note [0; 4[ [4; 6[ [6; 8[ [8; 10[ [10; 11[ [11; 12[ [12; 14[ [14; 16[ [16; 20[ Sup 4 6 8 10 11 12 14 16 20 Fr. cum. (%) 3,64 14,55 30,91 49,09 61,82 76,36 89,09 96,36 100,00 On fait là encore l’hypothèse d’augmentation régulière des fréquences cumulées à l’intérieur des classes. 100 90 80 70 Fréq. cumulées en% 60 50 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 Notes Exemple 5.4 Supposons que l’on ait xi [0; 2000[ [2000; 4000[ [4000; 5000[ [5000; 6000[ [6000; 8000[ [8000; 10000[ ni 6 26 21 23 20 4 ai fi en % f ci en % Pour calculer les f ci , on divise les fi par les ai et on multiplie par 1000 (plus petite ai ).

Chapitre 1 Statistiques 2024-2025 PDF

Document Details

Tags

Related

Summary

Full Transcript