Chapitre 2
Document Details

Uploaded by SubsidizedZeal2632
Full Transcript
Chapitre 2. Les distributions à un caractère ATIE - année universitaire 2022-2023 Plan 1. Introduction 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 3. Indicateurs de...
Chapitre 2. Les distributions à un caractère ATIE - année universitaire 2022-2023 Plan 1. Introduction 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 3. Indicateurs de dispersion 4. Indicateurs de forme 5. Indicateurs de concentration 2 Objectifs Connaitre les principaux indicateurs qui permettent de caractériser une variable Savoir calculer et interpréter ces indicateurs à partir de données Faire le lien entre indicateurs, tableaux et représentations graphiques Références Christophe Hurlin et Valérie Mignon (2015) Statistiques et probabilités en économie-gestion. Paris, Dunod, chapitre 1 Bernard Py (2007) Statistique Descriptive, Paris, Economica, chapitre 2 3 Rappels du chapitre 1 Notions fondamentales Une population statistique est un ensemble ni ou non d'individus (ou unités statistiques) que l'on souhaite étudier. Un échantillon est un sous-ensemble de la population que l'on observe réellement dans les données. Le mode de collecte des données doit permettre d'obtenir un échantillon représentatif de la population d'intérêt. Les variables ou caractères renseignent les modalités ou valeurs prises par chaque individu. Les variables peuvent être qualitatives (nominales ou ordinales) ou quantitatives (discrètes ou continues). Des biais ou erreurs peuvent également se cacher dans la manière dont on présente/représente des résultats statistiques. 4 Problématique La situation : les informations statistiques sont omniprésentes dans les médias, dans les débats politiques, dans les entreprises, etc. Bien souvent, on résume un phénomène à son niveau moyen ou à son évolution sur une certaine période. On néglige donc souvent la complexité du phénomène, qui peut être très hétérogène ou évoluer de manière non-linéaire La solution : étudier les di érentes caractéristiques d'une distribution Pour mieux appréhender cette complexité, il convient donc de connaitre et de savoir interpréter une palette d'indicateurs statistiques, de graphiques et de tableaux. Ce chapitre présente 4 grands types d'indicateurs relatifs aux distributions à un caractère : tendance centrale, dispersion, forme et concentration. 5 Exemple 1 : les données électorales (mars 2022) Sondage IFOP d'intentions de vote aux présidentielles le 24 mars 2022 Quand on découvre un sondage politique ou les résultats d'une élection, on ne s'intéresse pas vraiment au vote moyen mais plutôt... 6 Exemple 1 : les données électorales (mars 2022) Sondage IFOP d'intentions de vote aux présidentielles le 24 mars 2022 Quand on découvre un sondage politique ou les résultats d'une élection, on ne s'intéresse pas vraiment au vote moyen mais plutôt... au classement des di érents candidats, en particulier le favori à la concentration des votes sur quelques candidats ou entre blocs > On mobilise donc d'autres indicateurs statistiques : le mode, des indices de concentration, de dispersion, etc. 6 Exemple 2 : les chi res de l'in ation (septembre 2022) Quand on parle de l'in ation à 6% , on évoque seulement la variation annuelle d'un indice des prix pour un ménage moyen / représentatif 7 Exemple 2 : les chi res de l'in ation (septembre 2022) Quand on parle de l'in ation à 6% , on évoque seulement la variation annuelle d'un indice des prix pour un ménage moyen / représentatif Quid des disparités entre ménages ? Automobilistes ou cyclistes ? Chau age au gaz ou au bois ? Appartement au rez-de-chaussée ou au dernier étage ? Amateurs de pâtes ou de haricots ? L'in ation n'est jamais la même pour tout le monde > On souhaite donc également des indicateurs statistiques mesurant ces disparités, cette hétérogénéité (=dispersion) 7 Exemple 3 : le débat inégalités/rechau ement climatique Les riches sont-ils responsables du réchau ement climatique ? 8 Exemple 3 : le débat inégalités/rechau ement climatique Les riches sont-ils responsables du réchau ement climatique ? Pour répondre, il faut : s'accorder sur comment on mesure l'impact climatique d'un ménage distinguer des groupes de ménages selon leur revenu ou patrimoine > On mobilise donc des quantiles et des indicateurs de concentration 8 Dé nitions : e ectif, fréquence, fréquence cumulée E ectif L'e ectif total noté N représente le nombre d'individus composant la population. L'e ectif d'une modalité i de la variable x correspond au nombre d'individus qui prennent cette valeur. On le note ni. k Par dé nition, N =P i=1ni Exemple : si on a Bac = 50 individus, Licence = 40 individus, Master = 10 individus , on notera : n1 = 50,n2 = 40,n3 = 10,N = 100. Fréquence La fréquence est la proportion d'individus qui sont caractérisés par une certaine modalité dans n la population : fi = iN Ex : la fréquence associée à la modalité Master est de 0,1 ou 10%. 9 E ectif, fréquence, fréquence cumulée Fréquence cumulée La fréquence cumulée noté Fi est la somme des fréquences successives jusqu'à la modalité i. Elle indique donc la proportion d'individus pour lesquels la variable étudiée est inférieure ou égale à xi. Ainsi : F1 = f1, F2 = f1 +f2, F3 = f1 +f2 +f3 i Plus généralement, Fi = f1 +f2 +...+fi =P j=1fj Exemple : la fréquence cumulée F2 = 0,9 : 90% des individus ont un niveau de diplôme inférieur ou égal à la Licence (autrement dit un niveau inférieur au Master). E ectif cumulé De la même manière, l'e ectif cumulé Ni est la somme des e ectifs successifs jusqu'à la modalité i, soit : i Ni =P j=1nj 10 Exemple : nombre d’enfants par famille On dispose du tableau d’effectif et de fréquence du nombre d’enfants par famille avec enfants selon l’INSEE en 2016. Question 1. Calculez les fréquences du nombre d’enfants par famille. Quelle proportion de familles avec enfants a 2 enfants ? (a) 38,6% (b) 12,7% (c) 83% (d) 46,2% 8 Exemple : nombre d’enfants par famille On dispose du tableau d’effectif et de fréquence du nombre d’enfants par famille avec enfants selon l’INSEE en 2016. Question 2. Calculez les fréquences cumulées du nombre d’enfants par famille. Quelle proportion des familles avec enfants a moins de 3 enfants ? (a) 4,3% (b) 17% (c) 83% (d) 95,7% 9 Exemple : nombre d’enfants par famille On dispose du tableau d’effectif et de fréquence du nombre d’enfants par famille avec enfants selon l’INSEE en 2016. Question 2. Calculez les fréquences cumulées du nombre d’enfants par famille. Quelle proportion des familles avec enfants a moins de 3 enfants ? (a) 4,3% (b) 17% (c) 83% (d) 95,7% 83% des familles ont moins de 3 enfants, soit 8,735 millions sur 10,528. 9 Plan 1. Introduction 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 3. Indicateurs de dispersion 4. Indicateurs de forme 5. Indicateurs de concentration 12 Plan 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 13 Le mode d'une distribution Dé nition Le mode d'une distribution est la valeur (ou modalité) de la variable qui correspond à l'e ectif ou à la fréquence le (la) plus élevé(e). Il s'agit donc de la valeur la plus fréquemment rencontrée dans une distribution. Le mode peut être calculé pour des variables qualitatives et quantitatives discrètes. 14 Le mode d'une distribution Dé nition Le mode d'une distribution est la valeur (ou modalité) de la variable qui correspond à l'e ectif ou à la fréquence le (la) plus élevé(e). Il s'agit donc de la valeur la plus fréquemment rencontrée dans une distribution. Le mode peut être calculé pour des variables qualitatives et quantitatives discrètes. Exemple 1 : variable qualitative Modalité Haut Bas Gauche Droite E ectif 20 40 10 15 Exemple 2 : variable quantitative discrète Note 1 2 3 4 5 E ectif 25 15 60 30 20 14 Le mode d'une distribution Exemple 1 : variable qualitative Modalité Haut Bas Gauche Droite E ectif 20 40 10 15 Le mode de la distribution est la modalité Bas. Exemple 2 : variable quantitative discrète Note 1 2 3 4 5 E ectif 25 15 60 30 20 Le mode de la distribution correspond à la note de 3. 15 Un ou plusieurs modes Si une distribution est caractérisée par plusieurs modes, on parle d'une distribution pluri-modale. Exemple : une distribution bi-modale (en modalités A et C) Modalité A B C D E E ectif 4 2 4 3 1 Plusieurs modes successifs constituent un intervalle modal. Exemple : une distribution dont l'invervalle modal est [2 ;3] Note 1 2 3 4 5 E ectif 2 4 4 3 1 16 Classe modale Lorsque la variable est continue et regroupée en classes, on ne parle pas de mode mais de classe modale. Dé nition La classe modale d'une distribution est la classe qui regroupe le plus grand e ectif (si les classes sont de même amplitude) ou celle ayant la plus grande densité (si les classes sont d'amplitudes di érentes) Effectif Calcul de densité : di = ni Amplitude = ai 17 Classe modale Lorsque la variable est continue et regroupée en classes, on ne parle pas de mode mais de classe modale. Dé nition La classe modale d'une distribution est la classe qui regroupe le plus grand e ectif (si les classes sont de même amplitude) ou celle ayant la plus grande densité (si les classes sont d'amplitudes di érentes) Effectif Calcul de densité : di = ni Amplitude = ai Exemple 1 : Classe [0 ; 5 ans [ [5 ans ; 10 ans [ [10 ans ; 15 ans [ E ectif 25 15 60 Exemple 2 : Classe [0 ; 5 ans [ [5 ans ; 15 ans [ [15 ans ; 30 ans [ E ectif 100 120 150 17 Classe modale Exemple 1 : classes de même amplitude Classe [0 ; 5 ans [ [5 ans ; 10 ans [ [10 ans ; 15 ans [ E ectif 25 15 60 L'e ectif est maximal pour la classe 10 à 15 ans = il s'agit donc de la classe modale Exemple 2 : classes d'amplitudes inégales Classe [0 ; 5 ans [ [5 ans ; 15 ans [ [15 ans ; 30 ans [ E ectif 100 120 150 Densités : d1 = 100/5 = 20 ; d2 = 120/10 = 12 et d3 = 150/15 = 10 La densité est maximale pour la classe 0 à 5 ans = il s'agit donc de la classe modale 18 Exemple illustré 1 : les salaires en France en 2017 Distribution des salaires nets en EQTP en 2017 (Insee) 19 Exemple illustré 1 : les salaires en France en 2017 Distribution des salaires nets en EQTP en 2017 (Insee) Question 1 : quelle est la classe modale ? 19 Exemple illustré 1 : les salaires en France en 2017 Distribution des salaires nets en EQTP en 2017 (Insee) Question 1 : quelle est la classe modale ? De 1400 à 1500 euros. 19 Exemple illustré 1 : les salaires en France en 2017 Classe modale : de 1400 à 1500 euros. " deux classes d'amplitudes di érentes Question 2 : pourquoi peut-on s'abstenir de calculer les densités ici ? 20 Exemple illustré 1 : les salaires en France en 2017 Classe modale : de 1400 à 1500 euros. " deux classes d'amplitudes di érentes Question 2 : pourquoi peut-on s'abstenir de calculer les densités ici ? Les 2 barres problématiques (première et dernière) renvoient à des amplitudes plus grandes que les autres (a > 100 euros) n Donc leur densité di = iaiserait encore plus petite que les autres La densité la plus élevée sera bien celle de la classe [1400-1500[20 Exemple illustré 1 : les salaires en France en 2017 Classe modale : de 1400 à 1500 euros Question 3 : que peut-on dire grâce à cette statistique ? a) Les salariés touchent en moyenne entre 1400 et 1500 euros par mois b) Une majorité de salariés sont payés entre 1400 et 1500 euros par mois c) La tranche de salaire la plus fréquente chez les salariés est comprise entre 1400 et 1500 euros 21 Exemple illustré 1 : les salaires en France en 2017 Classe modale : de 1400 à 1500 euros Question 3 : que peut-on dire grâce à cette statistique ? a) Les salariés touchent en moyenne entre 1400 et 1500 euros par mois b) Une majorité de salariés sont payés entre 1400 et 1500 euros par mois c) La tranche de salaire la plus fréquente chez les salariés est comprise entre 1400 et 1500 euros 22 Exemple illustré 2 : Le mode et ses limites Temps de travail moyen dans deux échantillons de 100 adultes Echantillon A Echantillon B 23 Exemple illustré 2 : Le mode et ses limites Temps de travail moyen dans deux échantillons de 100 adultes Echantillon A Echantillon B La classe modale est la même dans les deux échantillons : de 0 à 5 heures de travail hebdomadaire. Mais les deux distributions demeurent très di érentes... 23 Exemple illustré 2 : Le mode et ses limites Temps de travail moyen dans deux échantillons de 100 adultes Echantillon A Echantillon B Le mode (ou classe modale) n'indique que la modalité (ou classe) la plus présente mais ne dit rien de la place des autres modalités dans l'échantillon Pour cela : médiane, moyenne, quantiles... 24 Plan 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 25 La médiane d'une distribution Dé nition La médiane d'une distribution est la valeur qui sépare la série en deux groupes de même taille. Il s'agit donc de la valeur telle que le nombre d'individus ayant une valeur inférieure est égal au nombre d'individus ayant une valeur supérieure. Dé nition 2 (variable continue) En posant Fx la fonction de répartition de la variable x, la médiane M 1 est telle que Fx (M) = 2= 0.5 26 La médiane d'une distribution Dé nition La médiane d'une distribution est la valeur qui sépare la série en deux groupes de même taille. Il s'agit donc de la valeur telle que le nombre d'individus ayant une valeur inférieure est égal au nombre d'individus ayant une valeur supérieure. Dé nition 2 (variable continue) En posant Fx la fonction de répartition de la variable x, la médiane M 1 est telle que Fx (M) = 2= 0.5 La médiane peut être calculée pour des variables quantitatives (discrètes ou continues) ou bien éventuellement pour des variables qualitatives ordonnées. 26 La médiane d'une distribution Selon le type de variable et l'e ectif de la série, on peut rencontrer 4 cas : 1. Cas 1 : variable quantitative discrète à e ectif impair 2. Cas 2 : variable quantitative discrète à e ectif pair 3. Cas 3 : variable continue 4. Cas 4 : variable continue regroupée en classes 27 Cas 1 : variable discrète à e ectif impair Exemple : On considère les notes sur 20 obtenues par des étudiants à un examen. Les notes ne prennent jamais de décimales pour cet examen donc il existe uniquement 21 valeurs possibles (de 0 à 20). L'échantillon est composé de 7 étudiants. La série de notes est : {16 ;7 ;10 ;14 ;6 ;17 ;11} 28 Cas 1 : variable discrète à e ectif impair Exemple : On considère les notes sur 20 obtenues par des étudiants à un examen. Les notes ne prennent jamais de décimales pour cet examen donc il existe uniquement 21 valeurs possibles (de 0 à 20). L'échantillon est composé de 7 étudiants. La série de notes est : {16 ;7 ;10 ;14 ;6 ;17 ;11} On les classe dans l'ordre : {6 ;7 ;10 ;11 ;14 ;16 ;17} La note médiane est de 11 : il y autant d'étudiants ayant une note inférieure que d'étudiants ayant une note supérieure On peut le voir graphiquement en traçant le graphique des e ectifs cumulés. 28 Cas 1 : variable discrète à e ectif impair Série : {6 ;7 ;10 ;11 ;14 ;16 ;17} E ectifs cumulés selon la note obtenue 29 Cas 1 : variable discrète à e ectif impair Série : {6 ;7 ;10 ;11 ;14 ;16 ;17} E ectifs cumulés selon la note obtenue 7 étudiants donc la médiane correspond à la note du 4ème étudiant 29 Cas 1 : variable discrète à e ectif impair Série : {6 ;7 ;10 ;11 ;14 ;16 ;17} E ectifs cumulés selon la note obtenue 7 étudiants donc la médiane correspond à la note du 4ème étudiant Graphiquement, la médiane est la note à laquelle renvoie la fonction d'e ectifs cumulés lorsqu'on atteint le 4ème étudiant 29 Cas 2 : variable discrète à e ectif pair On reprend l'exemple précédent en rajoutant un 8ème étudiant (e ectif pair) La série est maintenant complétée d'une 8ème note : 13 Le classement devient {6 ;7 ;10 ;11 ;13 ;14 ;16 ;17} La note médiane est donc comprise entre 11 et 13, il s'agit de l'intervalle médian [11, 13]. Si l'on souhaite calculer la médiane, deux possibilités : La médiane est le milieu de l'intervalle médian, à savoir ici 12 = 11+13 2. La médiane correspond à la borne supérieure de l'intervalle médian (ici 13), si le milieu ne fait pas sens exemple : le couple médian a 1,5 enfant ne fait pas grand sens (donc médiane de 2 enfants par convention) 30 Cas 2 : variable discrète à e ectif pair Série : {6 ;7 ;10 ;11 ;13 ;14 ;16 ;17} E ectifs cumulés selon la note obtenue 31 Cas 2 : variable discrète à e ectif pair Série : {6 ;7 ;10 ;11 ;13 ;14 ;16 ;17} E ectifs cumulés selon la note obtenue 8 étudiants donc la médiane s'obtient avec les notes des 4ème et 5ème étudiants 31 Cas 2 : variable discrète à e ectif pair Série : {6 ;7 ;10 ;11 ;13 ;14 ;16 ;17} E ectifs cumulés selon la note obtenue 8 étudiants donc la médiane s'obtient avec les notes des 4ème et 5ème étudiants Ici, le milieu de l'intervalle médian [11,13] fait sens, la médiane est donc la note de 1231 Cas 3 : variable continue Dé nition 2 (variable continue) En posant Fx la fonction de répartition de la variable x, la médiane M 1 est telle que Fx (M) = 2= 0.5 Exemple : la taille des hommes (en cm) dans un échantillon de 500 adultes, classés du plus petit au plus grand Ordre 1 2 3... 499 500 Taille 152,2 153,8 9 0 Densité cumulée 0,002 0,004 0,006... 0,998 1,000 32 Cas 3 : variable continue Fonction de répartition de la taille Graphiquement, on cherche la valeur telle que la densité cumulée vaut 0,5 : 50% de l'échantillon est plus petit, 50% de l'échantillon est plus grand.33 Cas 3 : variable continue Fonction de répartition de la taille Graphiquement, on cherche la valeur telle que la densité cumulée vaut 0,5 : 50% de l'échantillon est plus petit, 50% de l'échantillon est plus grand.33 Ordre... 250 251... Taille... 175,1 175,2... 7 Il y a bien 249 individus à gauche et 249 individus à droite. On prend le milieu de l'intervalle médian, soit 175,215 qu'on peut arrondir à 175,22 cm. 34 Ordre... 250 251... Taille 7 6... 175, Il y a bien 249 individus à gauche et 249 individus à droite. On prend le milieu de l'intervalle médian, soit 175,215 qu'on peut arrondir à 175,22 cm. Remarque : en cas d'e ectif impair, la médiane est simplement la note de l'étudiant situé exactement au milieu de la distribution avec 499 étudiants, médiane = note du 250ème. 34 Cas 4 : variable continue regroupée en classes Exemple : on reprend les salaires mensuels nets EQTP de l'INSEE pour 2017 On dispose des données relatives à ce graphique. Comment calculer la médiane ? 35 Cas 4 : variable continue regroupée en classes Classe E ectif E ectif cumulé Fréq. cumulée - de 1200 0,055 884 045 884 045 1 032 422 1 916 467 1 223 205 3 139 672 917 472 7 727 554 870 626 8 598 180 16 111 935 16 111 935 [1200 ;1300 [ 0,119 [1300 ;1400 [ 0,195... [1700 ;1800 [ 0,480 [1800 ;1900 [ 0,534... Total 1,000 36 Cas 4 : variable continue regroupée en classes Classe E ectif E ectif cumulé Fréq. cumulée - de 1200 0,055 884 045 884 045 1 032 422 1 916 467 1 223 205 3 139 672 917 472 7 727 554 870 626 8 598 180 16 111 935 16 111 935 [1200 ;1300 [ 0,119 [1300 ;1400 [ 0,195... [1700 ;1800 [ 0,480 [1800 ;1900 [ 0,534... Total 1,000 On atteint 50% de l'e ectif dans la tranche [1800 ;1900[ : c'est la classe médiane. Pour obtenir une approximation de la médiane, on procède par interpolation linéaire en calculant : i M = ei−1 +a fi(0,5−Fi−1) avec ei−1 l'extrêmité inférieure de la classe médianee, ail'amplitude de la classe médiane, fila fréquende de la classe médiane, et Fi−1 la fréquence cumulée de la classe inférieure à la classe médiane. 36 Cas 4 : variable continue regroupée en classes i M = ei−1 +a fi(0,5−Fi−1) Calcul : avec ei−1 l'extrêmité inférieure de la classe médiane (=1800), ai l'amplitude de la classe médiane (=100), fila fréquende de la classe médiane (=0,054), et Fi−1 la fréquence cumulée de la classe inférieure à la classe médiane (=0,480). 37 Cas 4 : variable continue regroupée en classes i M = ei−1 +a fi(0,5−Fi−1) Calcul : avec ei−1 l'extrêmité inférieure de la classe médiane (=1800), ai l'amplitude de la classe médiane (=100), fila fréquende de la classe médiane (=0,054), et Fi−1 la fréquence cumulée de la classe inférieure à la classe médiane (=0,480). 100 Donc ici : M = 1800+ 0,054 (0,5−0,480) ≈ 1837 euros Le salaire mensuel net en équivalent temps plein des salariés est de 1837 euros en 2017 en France, selon les données de l'INSEE : la moitié des salariés gagnent plus, la moitié des salariés gagnent moins. 37 Pour comprendre : a Question : D'où vient la formule M = ei−1 + ifi(0,5−Fi−1) ? 38 Pour comprendre : a Question : D'où vient la formule M = ei−1 + ifi(0,5−Fi−1) ? Salaire Fréq. cumulée 1800 0,480 Médiane 0,5 1900 0,534 38 Pour comprendre : a Question : D'où vient la formule M = ei−1 + ifi(0,5−Fi−1) ? Salaire Fréq. cumulée 1800 0,480 Médiane 0,5 1900 0,534 On veut approximer la Médiane par interpolation linéaire : la médiane doit se situer au même niveau sur l'échelle 1800-1900 que 0,5 sur l'échelle 0,480-0,534 = 0,5−0,480 1900−1800 M −1800 0,534−0,480 ⇔ M −1800 = 100×0,5−0,480 0,534−0,480 ⇔ M = 1800+100 ×(0,5−0,480) (même formule) 0,054 38 Plan 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 39 Quantiles Dé nition Les quantiles d'une distribution sont des valeurs qui séparent la série en plusieurs groupes de même taille. 40 Quantiles Dé nition Les quantiles d'une distribution sont des valeurs qui séparent la série en plusieurs groupes de même taille. On utilise régulièrement 4 types de quantiles : la médiane, les quartiles, les déciles, les centiles... Mais il en existe une in nité : Dé nition 2 Le quantile d'ordre q est tel que Fx (xq) = q 1 La médiane est le quantile d'ordre q = 2. Elle sépare la série en 2 groupes égaux 40 Quantiles fréquemment utilisés Les quartiles séparent la série en 4 groupes égaux : il existe donc 3 quartiles notés Q1 (quantile d'ordre 0,25), Q2 (quantile d'ordre 0,5) et Q3 (quantile d'ordre 0,75). L'intervalle Q3−Q1 est l'invervalle interquartile, il comprend 50% des observations et donne une mesure de la dispersion d'une série. Les déciles séparent la série en 10 groupes égaux : il existe donc 9 déciles notés D1, D2,... D9. L'intervalle D9−D1 est l'invervalle interdécile, il comprend 80% des observations et donne aussi une mesure de dispersion les 10% les plus riches sont les individus situés au-dessus du 9ème décile de revenu ou de patrimoine Les centiles séparent la série en 100 groupes égaux : il existe 99 centiles notés C1,..., C99. L'intervalle intercentile C99 −C1 comprend 98% des observations. le 1% le plus riche sont ceux situés au-dessus du 99ème centile 41 Exemple : le patrimoine des ménages en France D'après une étude de l'INSEE, le patrimoine brut ( nancier et immobilier) des ménages en 2018 est réparti comme suit : Quantiles D1 3 800 D2 11 200 D3 30 300 D4 96 100 Médiane 163 100 D6 221 200 D7 289 600 D8 392 500 D9 607 700 C95 878 900 C99 1 941 600 Questions : 42 Exemple : le patrimoine des ménages en France D'après une étude de l'INSEE, le patrimoine brut ( nancier et immobilier) des ménages en 2018 est réparti comme suit : Comment interpréter C95 ? Quantiles D1 3 800 D2 11 200 D3 30 300 Quel est l'intervalle D4 96 100 Médiane 163 100 D6 221 200 D7 289 600 D8 392 500 D9 607 700 C95 878 900 C99 1 941 600 Questions : Comment interpréter le 1er interdécile ? Comment l'interpréter ? décile ? 42 Exemple : le patrimoine des ménages en France Comment interpréter le 1er décile ? D1 = 3800 10% des ménages disposent d'un patrimoine inférieur ou égal à 3 800 euros, et donc 90% des ménages ont un patrimoine supérieur à 3 800 euros. 43 Exemple : le patrimoine des ménages en France Comment interpréter le 1er décile ? D1 = 3800 10% des ménages disposent d'un patrimoine inférieur ou égal à 3 800 euros, et donc 90% des ménages ont un patrimoine supérieur à 3 800 euros. Comment interpréter C95 ? C95 = 878 900 95% des ménages disposent d'un patrimoine inférieur ou égal à 878 900, seuls 5% ont un patrimoine supérieur. 43 Exemple : le patrimoine des ménages en France Comment interpréter le 1er décile ? D1 = 3800 10% des ménages disposent d'un patrimoine inférieur ou égal à 3 800 euros, et donc 90% des ménages ont un patrimoine supérieur à 3 800 euros. Comment interpréter C95 ? C95 = 878 900 95% des ménages disposent d'un patrimoine inférieur ou égal à 878 900, seuls 5% ont un patrimoine supérieur. Quel est l'intervalle interdécile ? Comment l'interpréter ? [3800 ; 607 700] donc intervalle de 603 900 80% des ménages ont un patrimoine compris entre 3 800 et 607 700 euros, ce qui montre qu'il existe de très grandes disparités : le ménage situé au 9ème décile (le plus pauvre parmi les 10% les plus riches) est 160 fois plus riche que le ménage situé au 1er décile (le plus riche parmi les 10% les plus pauvres) 43 Plan 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 44 Moyenne arithmétique Dé nition La moyenne arithmétique d'une variable quantitative, notée x, est égale à la somme des valeurs x1,x2,...xN divisée par le nombre x d'observa tions N, soit : x = 1+x2+...+xN N Exemple : age de la mère à la naissance de son 1er enfant : {25 ;32 ;34 ;29 ;21 ;24} 165 = 27,5 x= 6 L'âge moyen des mères à la naissance de leur premier enfant est de 27 ans et demi. 45 Moyenne arithmétique Dé nition La moyenne arithmétique d'une variable quantitative, notée x, est égale à la somme des valeurs x1,x2,...xN divisée par le nombre x d'observa tions N, soit : x = 1+x2+...+xN N Exemple : age de la mère à la naissance de son 1er enfant : {25 ;32 ;34 ;29 ;21 ;24} 165 = 27,5 x= 6 L'âge moyen des mères à la naissance de leur premier enfant est de 27 ans et demi. Remarque 1 : contrairement à la médiane, au mode, au maximum ou au minimum, la moyenne ne fait référence à aucun individu en particulier (aucune mère n'a 27,5 ici) : l'individu moyen n'existe pas forcément Remarque 2 : la moyenne est très sensible aux valeurs extrêmes... Ex : si une mère supplémentaire avait eu son premier enfant à 50 ans, la moyenne passerait à près de 31 ans ! 45 Moyenne arithmétique pondérée Dé nition Dans le cas où l'on observe seulement un tableau d'e ectifs, avec nil'ef fectif associé à la valeur vi, on doit calculer une moyenne pondérée : x =n1v1 +n2v2 +...+nNvN N Exemple : moyenne arithmétique à partir d'un tableau d'e ectifs Nb enfants E ectif 0 220 1 300 2 160 3 90 4 15 52 0×220+1×300+2×160+3×90+4×15+5×2 On obtient : x = 960 787 = 787 ≈ 1,22 On compte en moyenne 1,22 enfant par famille dans l'échantillon. 46 Moyenne arithmétique d'une variable regroupée en classes Lorsque le tableau d'e ectifs renseigne des classes et non des valeurs, on utilise les centres de classes pour le calcul de la moyenne : Classe E ectif Centre de classe 30 25 15 5 [0 ; 5 [ 2,5 [5 ; 10 [ 7,5 [10 ; 18 [ 14 [18 ; 25 [ 21,5 47 Moyenne arithmétique d'une variable regroupée en classes Lorsque le tableau d'e ectifs renseigne des classes et non des valeurs, on utilise les centres de classes pour le calcul de la moyenne : Classe E ectif Centre de classe 30 25 15 5 [0 ; 5 [ 2,5 [5 ; 10 [ 7,5 [10 ; 18 [ 14 [18 ; 25 [ 21,5 30×2,5+25×7,5+15×14+5×21,5 Moyenne pondérée : x = 75 ≈ 7,73 Remarque : si le tableau comportait une classe ouverte (par exemple 25 et plus ), on ne pourrait pas calculer la moyenne (en tout rigueur...) 47 Plan 2. Indicateurs de tendance centrale 2.1 Mode et classe modale 2.2 Médiane 2.3 Quantiles 2.4 Moyenne arithmétique 2.5 Autres moyennes 48 Moyennes géométriques, quadratiques, harmoniques... On utilise aussi parfois d'autres types de moyennes. On se concentre sur la moyenne géométrique : 1/N Formule : mo = (x1x2...xN) utilisée lorsque les grandeurs sont par essence multiplicatives 49 Moyennes géométriques, quadratiques, harmoniques... On utilise aussi parfois d'autres types de moyennes. On se concentre sur la moyenne géométrique : 1/N Formule : mo = (x1x2...xN) utilisée lorsque les grandeurs sont par essence multiplicatives Exemple : une entreprise a vu son chi re d'a aires annuel augmenter de 10%, puis 8%, puis 15%, puis 7%, puis 5% - il s'agit donc d'une multiplication en 5 ans par 1,535 (soit +54%). car 1,535 = 1×1,1×1,08×1,15×1,07×1,05. Question : Quel est le taux de croissance annuel moyen du CA ? 49 Moyennes géométriques, quadratiques, harmoniques... Question : Quel est le taux de croissance annuel moyen du 1/N CA ? Calcul : mo = (1,1×1,08×1,15×1,07×1,05) = 1,089 En moyenne, le rythme de croissance du chi re d'a aires est de 8,9% par an sur les 5 années 5 (pour véri er : 1,089 ≈ 1,535) 50