Chapitre 1 Statistique Descriptive PDF

Summary

This document introduces the concept of descriptive statistics, focusing on definitions like population and types of statistical characteristics. It explains quantitative and qualitative characteristics, and provides examples, including tables of frequencies. The material is suited for an undergraduate-level introduction to statistics.

Full Transcript

Notes Chapitre 1 Statistique descriptive [email protected] Un peu de vocabulaire Notes D...

Notes Chapitre 1 Statistique descriptive [email protected] Un peu de vocabulaire Notes Dénition (Population) La population est un ensemble d'individus sur lequel porte notre étude. Les individus peuvent être des humains, mais également d'autres êtres vivants ou des objets inanimés (jours de l'année, mots d'un texte, etc.) On notera parfois Ω = {ω1 ,... , ωN } la population, les ωi étant donc les individus. Adrien Mazoyer Introduction à la Statistique 2 / 26 Un peu de vocabulaire Notes Une étude d'une population porte sur un ou plusieurs caractères statistiques mesurés sur les individus. Dénition (Type de caractères statistiques) Quantitatif : le caractère prend des valeurs numériques. Il peut être continu (température en un point donné dans une région) discret (nombre d'enfants dans un foyer) Qualitatif : le caractère prend ses valeur dans un ensemble de modalités non-numériques (météo, candidats à une élection,...). Il peut être nominal/catégoriel : pas d'ordre entre les modalités (couleur : rouge, bleu,...) ordinal : ordre entre les modalités (avis : pas d'accord, plutôt pas d'accord, plutôt d'accord, d'accord). Pour une population Ω = {ω1 ,... , ωN } et un caractère statistique X, on notera ΩX = {m1 ,... , mr } l'ensemble des modalités possibles de X xi la valeur du caractère X sur l'individu ωi (càd xi = X(ωi )). Adrien Mazoyer Introduction à la Statistique 3 / 26 Plan Notes 1 Caractère statistique discret 2 Représentations graphiques 3 Indicateurs classiques Adrien Mazoyer Introduction à la Statistique 4 / 26 Caractère statistique discret Notes Remarque Un caractère discret est un caractère dont on peut dénombrer/distinguer les diérentes modalités possibles. Ils s'agit donc des caractères quantitatifs discrets et des caractères qualitatifs. Exemple On considère une petite ville où on compte 1000 familles avec enfants, et on relève le nombre d'enfants pour chacun de ces foyers. Population Ω considérée : les familles avec enfants de la ville considérée. Caractère X considéré : nombre d'enfants par individu de la population. Table d'eectifs associée Nb. d'enfants 1 2 3 4 5 6 7 Nb. de familles 438 366 142 21 18 12 3 Adrien Mazoyer Introduction à la Statistique 5 / 26 Table d'eectifs Notes Dénition (Table d'eectifs) La table d'eectif renseigne pour chaque valeur/modalité du caractère considéré, le nombre de fois où est observée la modalité. De manière équivalente, on peut en tirer la fréquence de chaque modalité. Dans le cas d'un caractère quantitatif, on indique souvent la fréquence cumulée. Sur l'exemple de la diapo précédente : Nb. d'enfants 1 2 3 4 5 6 7 ( Modalités) Nb. de familles 438 366 142 21 18 12 3 ( Eectifs) % de familles 43.8 36.6 14.2 2.1 1.8 1.2 0.3 ( Fréquences) Fréquences 43.8 80.4 94.6 96.7 98.5 99.7 100 cumulées Adrien Mazoyer Introduction à la Statistique 6 / 26 Table d'eectifs Notes Plus formellement Soit un caractère d'intérêt X a r modalités m1 ,... , mr , et qu'on a N individus dans la population considérée. L'eectif de la j ème modalité mj du caractère X est noté nX (mj ). On a d'ailleurs que N = nX (m1 ) + nX (m2 ) +... + nX (mr ) La fréquence de la j ème modalité mj est dénie par nX (mj ) fX (mj ) = ∈ [0 ; 1] (qu'on ramène en %) N Les fréquences cumulées sont dénies par FX (m1 ) = fX (m1 ) et pour j>1 FX (mj ) = fX (m1 ) +... + fX (mj ) Adrien Mazoyer Introduction à la Statistique 7 / 26 Plan Notes 1 Caractère statistique discret 2 Représentations graphiques 3 Indicateurs classiques Adrien Mazoyer Introduction à la Statistique 8 / 26 Pourquoi faire ? Notes Donne une vision globale de nos données On peut comparer visuellement 2 jeux de données Graphique diérents selon le type de caractère considéré Attention : un graphique n'est qu'un résumé et reste donc trop imprécis pour être considéré seul. Adrien Mazoyer Introduction à la Statistique 9 / 26 Caractères qualitatifs Notes Chaque modalité est représentée par une surface proportionnelle à son eectif. Représentation classique : le diagramme en bâtons. Tous les rectangles ont même longueur de base, c'est la hauteur qui représente la fréquence (ou l'eectif ). Fréquences 0.30 CSP (%) Ouvriers 25 0.25 Employés 30 0.20 Cadres 12 Fréquences Autres 33 0.15 0.10 0.05 0.00 Autres Cadres Employés Ouvriers CSP Adrien Mazoyer Introduction à la Statistique 10 / 26 Caractères quantitatifs discrets Notes On peut également utiliser les diagrammes en bâtons Nb. % de 0.4 d'enfants familles 1 43.8 2 36.6 0.3 3 14.2 Fréquences 4 2.1 0.2 5 1.8 6 1.2 7 0.3 0.1 0.0 1 2 3 4 5 6 7 Nb d'enfants Adrien Mazoyer Introduction à la Statistique 11 / 26 Caractères quantitatifs discrets Notes On va souvent considérer un diagramme de fréquences cumulées Fréquences Nb. 1.0 cumulées d'enfants (%) Fréquences cumulées 1 43.8 0.8 2 80.4 3 94.6 4 96.7 0.6 5 98.5 6 99.7 0.4 7 100 0.2 0.0 0 1 2 3 4 5 6 7 Nombre d'enfants Adrien Mazoyer Introduction à la Statistique 12 / 26 Caractères continus Notes An de pouvoir représenter graphiquement des données d'un caractère continu, on doit séparer les données en diérentes classes. Prenons par exemple des données correspondant à la taille de 10 personnes x1 = 1.65 , x2 = 1.77 , x3 = 1.63 , x4 = 1.72 , x5 = 1.78 , x6 = 1.63 , x7 = 1.79 , x8 = 1.78 , x9 = 1.82 , x10 = 1.73 Contrairement au cas discret, le caractère dont sont issues les données n'a pas un nombre dénombrable de modalité possible. Pour remédier à cela, on regroupe les valeurs en classes (de même taille) : Taille Eectifs [1.60 ; 1.70[ 3 [1.70 ; 1.80[ 6 [1.80 ; 1.90[ 1 Adrien Mazoyer Introduction à la Statistique 13 / 26 Caractère quantitatifs continus Notes Même principe que pour les diagrammes en bâtons : la base des rectangles correspond à la largeur de l'intervalle considéré et la hauteur est proportionnel à l'eectif de la classe. 8 6 Eectifs Taille Eectifs normalisés 4 [1.60 ; 1.65] 3 6 ]1.65 ; 1.70] 0 0 2 ]1.70 ; 1.75] 2 4 ]1.75 ; 1.80] 4 8 0 ]1.80 ; 1.85] 1 2 1.60 1.65 1.70 1.75 1.80 1.85 Taille Ce diagramme en bâton est appelé un histogramme. Lorsque l'aire totale des rectangle vaut 1, on dit que l'histogramme est normalisé. Adrien Mazoyer Introduction à la Statistique 14 / 26 Caractère quantitatifs continus Notes On peut également tracer un diagramme de fréquences cumulées : Fréquence 1.0 Tailles Eectifs cumulées Fréquences cumulées 1.63 2 0.2 0.8 1.65 1 0.3 1.72 1 0.4 0.6 1.73 1 0.5 1.77 1 0.6 0.4 1.78 2 0.8 1.79 1 0.9 0.2 1.82 1 1 0.0 1.5 1.6 1.7 1.8 1.9 2.0 Taille Adrien Mazoyer Introduction à la Statistique 15 / 26 Plan Notes 1 Caractère statistique discret 2 Représentations graphiques 3 Indicateurs classiques Adrien Mazoyer Introduction à la Statistique 16 / 26 Indicateurs statistiques Notes Les indicateurs statistiques sont des grandeurs quantitatives résumant des informations sur la population. On distinguera ici 2 catégories d'indicateurs Indicateurs de position : moyenne, médiane. Indicateurs de dispersions : écart-type, quantiles. Remarque Ces notions n'ont de sens que pour des caractères quantitatifs ! Adrien Mazoyer Introduction à la Statistique 17 / 26 Moyenne Notes Dénition (Moyenne) Soit une population Ω = {ω1 ,... , ωN }, la moyenne X d'un caractère d'intérêt X est alors 1 X= (x1 +... + xN ) N avec xi = X(ωi ), càd la mesure de X sur le ième individu. Si X est un caractère discret à r modalités m1 ,... , mr la moyenne s'écrit aussi X = m1 fX (m1 ) +... + mr fX (mr ) Nb. d'enfants 1 2 3 4 5 6 7 Nb. de familles 438 366 142 21 18 12 3 Quel est le nombre moyen d'enfants par familles ? 438 × 1 + 2 × 366 + 3 × 142 + 4 × 21 + 5 × 18 + 6 × 12 + 7 × 3 = 1.863 1000 Adrien Mazoyer Introduction à la Statistique 18 / 26 Médiane Notes Exemple classique Le salaire médian en France en 2020 était de 2000 ¿net par mois dans le secteur privé. Traduction : la moitié des salariés du secteur privé gagnaient moins de 2000 ¿net par mois. Dénition (Médiane) La médiane de valeurs x1 ,... , xN issues d'un caractère X est une valeur M eX telle que la moitié des xi est inférieur à M eX. Attention ! À ne pas confondre avec la moyenne ! Adrien Mazoyer Introduction à la Statistique 19 / 26 Identication graphique de la médiane Notes On peut lire directement sur le diagramme des fréquences cumulées la valeur de la médiane. Reprenons l'exemple de la diapo 12 et identions la médiane. 1.0 Fréquences cumulées 1 On trace la ligne horizontale à 0.8 l'ordonnée 0.5 ; 0.6 2 On repère le premier point 0.5 au-dessus de cette ligne, cela 0.4 nous donne la médiane ; → la moitié des foyers ont moins 0.2 de 2 enfants. 0.0 0 1 2 3 4 5 6 7 Nombre d'enfants Adrien Mazoyer Introduction à la Statistique 20 / 26 Quantiles Notes Exemple classique Le quantile d'ordre 10% des salaires du secteur privé en 2020 était de 1340 ¿ net par mois. Traduction : 10% des salariés du secteur privé en 2020 gagnaient moins de 1340 ¿ net par mois. Dénition (Quantile) Le quantile d'ordre α de valeurs x1 ,... , xN issues d'un caractère X est une valeur qX (α) telle qu'une proportion α des xi est inférieure à qX (α). Les quartiles sont les quantiles d'ordre α = 0.25 (1er quartile), 0.50 (médiane) ou 0.75 (3ème quartile). Les déciles sont les quantiles d'ordre α = 0.1 (1er décile), α = 0.2 (2ème décile),..., α = 0.9 (9ème décile). On peut observer l' écart inter-quartile (diérence entre le 3ème et le 1er quartile) pour quantier la dispersion des données. Adrien Mazoyer Introduction à la Statistique 21 / 26 Identication graphique d'un quantile Notes On peut lire la valeur d'un quantile sur le diagramme des fréquences cumulées, comme pour la médiane. Cherchons par exemple le quantile d'ordre 0.85. 1 On trace la ligne horizontale à 1.00 l'ordonnée 0.85 ; 0.85 Fréquences cumulées 2 On repère le premier point 0.80 au-dessus de cette ligne, cela nous donne le quantile d'ordre 0.60 0.85 ; 0.40 → 85% des foyers ont moins de 3 enfants. 0.20 0.00 0 1 2 3 4 5 6 7 Nombre d'enfants Adrien Mazoyer Introduction à la Statistique 22 / 26 Identication graphique d'un quantile Notes On peut lire la valeur d'un quantile sur le diagramme des fréquences cumulées, comme pour la médiane. Cherchons par exemple le quantile d'ordre 0.85. 1 On trace la ligne horizontale à 1.00 l'ordonnée 0.85 ; 0.90 0.85 Fréquences cumulées 2 On repère le premier point 0.80 au-dessus de cette ligne, cela nous donne le quantile d'ordre 0.60 0.85 ; 0.40 → 85% des foyers ont moins de 3 enfants. 0.20 Remarque 0.00 0 1 2 3 4 5 6 7 3 est aussi le quantile d'ordre 90% ! Nombre d'enfants Adrien Mazoyer Introduction à la Statistique 22 / 26 Identication graphique d'un quantile Notes Cas particulier : on cherche le quantile d'ordre 0.804. 1.000 Fréquences cumulées 1 On trace la ligne horizontale à 0.804 l'ordonnée 0.804 ; 0.600 2 On tombe cette fois exactement sur un point du 0.400 diagramme ; → toute valeur comprise entre 2 et 0.200 3 ferait l'aaire ! 0.000 0 1 2 3 4 5 6 7 Nombre d'enfants Adrien Mazoyer Introduction à la Statistique 23 / 26 Résumé graphique Notes Dans le cas d'un caractère continu, on peut résumer les diérents indicateurs graphiquement avec un boxplot. Boxplot 4 D9 Aussi appelé boîtes à moustache, 3 diagramme de Tukey. Q3 2 Visualisation des caractéristiques principales. Me 1 Ligne centrale : médiane. Q1 0 Arêtes de la boîtes : quartiles Q1 et Q3. −1 D1 Moustaches : seuil pour délimiter les valeurs extrêmes (◦). −2 → convention : on prend le 1er et 9ème décile. Adrien Mazoyer Introduction à la Statistique 24 / 26 Variance et écart-type Notes Dénition (Variance) Étant donnée une population de N xi la valeur obtenue individus, on note pour le ième individu d'un caractère d'intérêt X. v(X) de X est alors La variance   1  2 2  2 v(X) = x1 − X +... + xN − X = X −X N Pour un caractère discret à r modalités m1 ,... , m r la variance s'écrit aussi 2 2 v(X) = m1 − X fX (m1 ) +... + mr − X fX (mr ) Dénition (Écart-type) p L'écart-type s(X) correspond alors à la racine de la variance : s(X) = v(X). Adrien Mazoyer Introduction à la Statistique 25 / 26 Variance et écart-type Notes Remarques La variance correspond donc à la moyenne des carrés des écarts entre chaque xi et la moyenne X. On peut en faire montrer que la variance s'écrit aussi comme 1 2 x21 +... + x2N − X  v(X) = N = moyenne des carrés − carré de la moyenne On dénit l'écart-type par souci d'homogénéité : si les xi expriment par exemple des masses en kg, alors leur variance s'exprimera en kg2. Appliquer la racine permet d'avoir une grandeur exprimée en kg. Adrien Mazoyer Introduction à la Statistique 26 / 26 Notes

Use Quizgecko on...
Browser
Browser