FC3b Statistiques Descriptives PDF
Document Details
Uploaded by FreedKhaki
Association Tutorat Santé Stéphanois
Pelissier
Tags
Summary
This French document is a summary of a statistics course, covering descriptive statistics, focusing on positions and dispersion parameters. It includes examples and a summary of theoretical concepts.
Full Transcript
Statistiques descriptives Professeur : PELISSIER FC N°3b Date : 15/09/2023 SOMMAIRE I. LES PARAMETRES DE POSITION ✪✪✪ ..................................................................................................................................... 1 II. LES PARAMETRES DE DISPERSION ✪✪✪ .........
Statistiques descriptives Professeur : PELISSIER FC N°3b Date : 15/09/2023 SOMMAIRE I. LES PARAMETRES DE POSITION ✪✪✪ ..................................................................................................................................... 1 II. LES PARAMETRES DE DISPERSION ✪✪✪ ................................................................................................................................ 5 III. LES PARAMETRES DE FORMES ............................................................................................................................................... 8 1. MESURE D’APLATISSEMENT ........................................................................................................................................................ 9 2. VARIABLE QUANTITATIVE REGROUPEE ........................................................................................................................................... 9 IV. DESCRIPTION CROISEE......................................................................................................................................................... 13 1. STATISTIQUE DESCRIPTIVE A 2 DIMENSIONS .................................................................................................................................. 14 2. TABLEAU DE CONTINGENCE DE DEUX VARIABLES QUALITATIVES .......................................................................................................... 15 3. FREQUENCES RELATIVES .......................................................................................................................................................... 15 4. TABLEAU DE CONTINGENCE DE 2 CARACTERES BINAIRES ................................................................................................................... 16 V. RESUME DU COURS ✪✪✪ .................................................................................................................................................... 17 En cas de questions sur ce cours, vous pouvez écrire à l’adresse suivante : [email protected] Les règles de courtoisies sont à respecter lors de l’envoi d’un mail. L’équipe des tuteurs se réserve le droit de répondre ou non à un mail. En cas de questions récurrentes, les tuteurs pourront faire un point lors des colles hebdomadaires. I. Les paramètres de position ✪✪✪ MOYENNE ARITHMETIQUE • Notation : 𝑥 • La moyenne correspond au centre de gravité de la distribution. ✪✪ • La somme algébrique des écarts à la moyenne est nulle : ∑ (𝑥𝑖 -𝑥) est nulle. La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. ✪✪ Généralités • La moyenne d'un groupe issu de la fusion d'autres groupes n'est égale à la moyenne des moyennes de ces autres groupes uniquement si tous les groupes ont le même effectif. • Paramètre central concernant uniquement des variables quantitatives ✪, dans la même unité que la variable ✪. • Calculable quelle que soit la loi qui régit la distribution. ✪ Formule 𝑻 • Égale à la somme des valeurs (T) divisée par le nombre de mesures (n) : 𝒏 • n : Nombre total de mesures. Notations • p : Nombre de valeurs différentes observées. Donc p ≤ n • ni : Nombre d’occurrences de la valeur observée i. • fi : Fréquence (pourcentage) de la valeur observée i. • On compte chaque valeur xi autant de fois qu’elle se présente, ce qui revient à pondérer la valeur xi par l’effectif ni qui lui correspond. Cas d’une variable discrète 𝑥= • Avec Cas d’une variable continue 𝑛𝑖 𝑥 𝑖 𝑛 𝑛𝑖 = 𝑛 (𝑝 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑑𝑒 𝑥 𝑑𝑖𝑠𝑡𝑖𝑛𝑐𝑡𝑒𝑠 𝑝 ≤ 𝑛) ∑𝑝𝑖=1 • 𝑥=∑ ∑𝑝𝑖=1 𝑛𝑖 𝑛 𝑥𝑖 = ∑ 𝑓𝑖 𝑥𝑖 ✪✪✪ • Si l’on a fait un rangement par classes (série groupée à k classes), on peut proposer une estimation approchée de la moyenne. 𝑥= ∑𝑘𝑖=1 𝑛𝑖 𝑥 𝑖 𝑛 1 • Le nombre de familles enquêtées est de 105, le nombre total d’enfants est de 225. • La moyenne du nombre d’enfants est de 225/105 = 2,14. • Attention aux arrondis, on arrondit à une décimale. La moyenne est de 2,1 enfants par famille. Exemples • Attention à bien faire une moyenne pondérée des moyennes des groupes et pas une moyenne des moyennes. 2 MEDIANE • Notée 𝑥̃ (prononcée « x tilde »). • La moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou Généralités égale) ✪ : xi tel que Fi = 0,5. Paramètre peu sensible aux valeurs extrêmes et qui peut être utilisé pour des données ordinales. • Si la série est impaire, constituée de 2p + 1 éléments, la médiane est (p + 1) – nème valeur (p valeurs inférieures et p valeurs supérieures). ✪✪ • Si la série est paire, constituée de 2p éléments, la médiane est choisie comme la demisomme de la p - nème et de la (p + 1) - nème valeur ✪✪✪ : 𝑥̃ = (𝑥𝑝 + 𝑥𝑝 + 1) 2 Calcul sur une distribution non groupée • Exemple sur données non groupées : o n=334 est pair, donc on cherche les valeurs de x n/2 et xn/2+1 qui sont les valeurs de x167 et x168 qui ont pour valeur 8. o Donc la médiane = (xn/2 + xn/2+1) /2 = (8 + 8)/2 = 8. 3 QUANTILES OU FRACTILES • Cette notion généralise la médiane qui coupe la distribution en deux parties égales. • On divise la population, ordonnée dans l’ordre croissant, en parties de même effectif : Généralités • En 4 = quartiles • En 10 = déciles • En 100 = centiles (ou percentiles) • Q1 : xi tel que Fi = 0,25 ✪✪✪ => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures. • Q2 = Médiane ✪✪ Quartiles • Q3 : xi tel que Fi = 0,75 ✪✪✪ => 3/4 des valeurs lui sont inférieures, ¼ lui sont supérieures • Détermination graphique • Interpolation linéaire (cf. médiane) • 10ème percentile : xi tel que Fi = 0,10 • Courbe du poids fonction de l’âge Percentiles en • On parlera ainsi du 90ème percentile pour indiquer la valeur séparant les premiers 90% de la population des 10% restants. • Le 5ième et 95ième percentile sont souvent utilisés comme limite normative. MODE • Le mode ou valeur dominante correspond à la valeur la plus fréquente ✪✪✪, c-à-d. le xi correspondant avec la valeur n i (ou fi) maximum. Il peut y avoir un ou plusieurs modes. • Dans une distribution en cloche, unimodale et symétrique, moyenne, mode et médiane sont confondus. (cf schéma ci-dessus à gauche). Mais pas dans les autres cas. (cf schéma ci-dessus à droite). 4 II. Les paramètres de dispersion ✪✪✪ • Les paramètres de dispersion doivent renseigner sur l’étalement de la distribution. Ils font intervenir en général les écarts à la moyenne. PARAMETRES DE DISPERSION • Écart entre la valeur de l’observation maximale et celle de l’observation minimale, c’est Amplitude ou étendue à dire, entre la plus petite et la plus grande valeur pour faire simple. ✪✪ • Elle est non définie pour les distributions groupées. • L’écart-type est toujours inférieur ou égal à la moitié de l’amplitude. • EIQ = Q3 – Q1. ✪✪✪ o 50% des individus ont des valeurs en dehors de l’intervalle Q1-Q3 o et 50% à l’intérieur • On utilise parfois l’écart semi-interquartile (Q3-Q1) / 2 Écart interquartile o 25% des individus ont des valeurs comprises entre Q1 et médiane o 25% des individus ont des valeurs comprises entre médiane et Q3 o 25% des individus ont des valeurs inférieures à Q1 o 25% des individus ont des valeurs supérieures à Q3 • Ceci permet de se rendre compte si la distribution est symétrique ou non. • La variance d’une série ou d’une distribution de fréquences est la moyenne arithmétique des carrés des écarts de la moyenne. ✪✪ • La variance de l’échantillon est souvent notée S². • Ce n’est pas un bon estimateur de la variance de la population souvent notée σ². Variance et écart type • L’estimation de la variance est notée σ². • Le numérateur de la formule de variance est appelé somme des carrés des écarts et noté SCE. L’écart-type est la racine carrée de la variance ✪ ✪ ✪ (encore appelé standard déviation), il est dans l’unité de la variable. • Pour les distributions en cloche, la variance calculée à partir des classes est surestimée, certain réalise la correction de Sheppard (S² - a²/12) si l’amplitude (a) des classes est constante. 5 ✪✪✪ • N : Effectif • T : Somme des valeurs Récapitulatif des formules de calcul • U : Somme des carrés des valeurs • x : Moyenne algébrique • SCE : Somme des carrés des écarts • S : Écart-type échantillon • σ : Écart-type estimé • Si l’on considère plusieurs échantillons indépendants, issus d’une population, on obtient plusieurs moyennes. Écart type de la moyenne • La distribution des moyennes a un écart type appelé écart type de la moyenne ou erreur standard de la moyenne (ESM) (standard déviation of the mean – SDM). ̂= 𝐸𝑆𝑀 𝜎̂ √𝑛 • Cette représentation appelée « boîte à moustache » intègre différents paramètres de position et de dispersion. Représentati on en Box Plot 6 • Exemple : Répartition du risque cardiovasculaire chez les hommes et les femmes. • CV est le rapport écart type divisé par la moyenne. ✪✪✪ Coefficient de Variation Nombre pur sans unités ✪ et donc totalement indépendant des unités. • Permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités. ✪ 7 III. Les paramètres de formes PARAMETRES DE FORMES • Une distribution de valeurs peut être symétrique, asymétrique à gauche ou à droite. o Si la distribution de valeur est symétrique on constate en général que la moyenne est égale à la médiane et au mode. o Si la distribution de valeur est asymétrique à gauche la moyenne est supérieure à la médiane qui est elle-même supérieure au mode. o Si la distribution de valeur est asymétrique à droite la moyenne est inférieure à la médiane qui est elle-même inférieure au mode. Mesure d’asymétrie • Le moment centré d’ordre p est : Si p ∈ N, 𝑚𝑝 = 1 𝑛 ∑𝑖=𝑝 𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥)𝑝 • C’est la moyenne arithmétique des écarts à la moyenne élevée à la puissance p. Quantification de l’asymétrie Le moment centré d’ordre 1 vaut 0 ✪ Le moment centré d’ordre 2 vaut S2 soit la variance Le moment centré d’ordre 3 permet de quantifier l’asymétrie • Le moment centré d’ordre 3 est nul si la distribution est symétrique (à chaque écart à la moyenne positif correspond son symétrique négatif et l’élévation au cube conserve le signe). • Si la distribution est asymétrique à gauche le moment centré d’ordre 3 est positif. • Si la distribution est asymétrique à droite, le moment centré d’ordre 3 est négatif. 8 1. Mesure d’aplatissement Coefficient d’aplatisseme nt de Pearson 𝜷𝟐 Si 𝜷𝟐 est grand • 𝛽2 = 𝑚4 𝑆4 • Avec : 𝑚4 = 1 𝑛 ∑𝑖=𝑝 𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥)4 , le moment centré d’ordre 4 de la distribution • Nombre sans dimension • La courbe apparaît pointue. Courbes 2. Variable quantitative regroupée LES CLASSES • Les valeurs quantitatives sont mises en classes • Permet de transformer une variable quantitative en variable (presque) qualitatives ordinales ✪ o Peut garder quelques propriétés des variables quantitatives toutefois • Possible pour variable quantitative continu ou discrète Généralités o Intérêt simplification mais attention perte d’information • On peut décrire les classes comme une variable qualitative : modalités (classes) 𝑥𝑖 , effectifs 𝑛𝑖 , fréquences 𝑓𝑖 o Mais informations pouvant être décrites aussi concernant les classes en ellemême… o On peut aussi s’intéresser à la classe médiane et à la médiane • Les bornes de classes correspondent aux valeurs extrêmes • Les classes sont mutuellement exclusives • L’amplitude de la classe ou intervalle ou module de classe : ✪ Caractéristiques o Δ=borne supérieure−borne inférieure • Le point central ou point médian est situé à mi-chemin entre les bornes 𝛥 o 𝐶𝑖 = 𝐵𝑖𝑛𝑓𝑖𝑛𝑓 𝑖 + 2𝑖✪ • On parle de classes ouvertes lorsque la limite inférieure de la première classe ou supérieure de la dernière classe n’est pas préciser. 9 • L’intervalle/amplitude de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes de valeurs extrêmes • En cas de classes d’amplitudes différentes, la densité de fréquence 𝜂𝑖 𝛥𝑖 permet de comparer les effectifs ou les fréquences d’une classe à l’autre. • La densité de fréquence est utilisée pour tracer l’histogramme • A la place de la colonne xi, le tableau comprend soit les bornes de classes, soit le centre de classe (𝑐𝑖 ) ou la borne inférieure de classe • Classification OMS du poids en fonction de l’indice de masse corporelle (IMC : poids/taille²) o Bornes de classe : 25 et 30 o Les classes sont mutuellement exclusives o L’amplitude Δ=30-5 = 5 5 o Le point central 𝑐𝑖 = 25 + 2 = 27.5 Exemple • Catégories de naissance prématurée selon âge gestationnel • Défini arbitrairement ou selon des critères annexes (niveaux de risques associés, différences de prise en charge…) • Si grand nombre de valeurs, on peut s’aider d’un calcul algébrique Règle de Sturge Nombre de classes= 1+ (3.322xlog 10(n)) Ex pour n=100, classes 1+3.322x2=7.6 soit 8 classes Définir le nombre de classes Règle de Yule Nombre de classes=2,5 × 4√𝑛 = 2,5√√𝑛 4 Ex pour n=100, classes =2,5 × √100 = 7,9 soit 8 classes Remarque : le nombre de classes est arrondi à l’entier supérieur • Histogramme Représentation graphique o Composé de rectangles ayant comme base l'intervalle de classe et comme 𝑛 hauteur la densité de fréquence (𝛥𝑖) 𝑖 10 o La surface est proportionnelle à 𝑛𝑖 • La classe médiane est celle qui contient la médiane • La médiane est approximée par : Calcule de la médiane sur une distribution groupée o Détermination graphique. o Une approximation linéaire, en admettant que les observations soient réparties uniformément dans cette classe 11 • On veut calculer la médiane de cette série statistique (la taille m telle que 50% des élèves mesurent moins que m et 50% des élèves mesurent plus que m), en supposant une répartition homogène de tailles à l’intérieur des classes. On réalise donc une approximation linéaire. • On calcule le tableau des effectifs cumulés croissants • Le total de l’effectif cumulé est pair, donc 2n=30 donc n=15, la médiane se trouve entre la valeur de x15 et x16 donc ici dans la classe [165,170[. • On construit la courbe ayant en abscisses la taille et en ordonnée l’effectif cumulé correspondant. • Par interpolation linéaire Exemple de calcul de la médiane • La médiane est l’abscisse m du point M de la courbe d’ordonnée 15 • Soit A (165,7) et B (170,17) les extrémités du segment contenant M (m, 15), • 𝑦 = 𝑎𝑥 + 𝑏 • Le coefficient directeur de la droite (AM) est le même que celui de la droite (AB) ✪✪✪ 𝑌𝑀 − 𝑌𝐴 𝑌𝐵 − 𝑌𝐴 15 − 7 17 − 7 10 𝑎= = ; = = ⟺ 10(𝑚 − 165) = 40 𝑋𝑀 − 𝑋𝐴 𝑋𝐵 − 𝑋𝐴 𝑚 − 165 170 − 165 5 o m – 165 = 4 d’où m = 169 • La taille médiane est donc de 169 cm. 15 − 7 8 10 = = 𝑚 − 165 𝑚 − 165 5 o Donc 8 × 5= 10 × (m - 165) et 40/10 = m - 165 • Enfin m = 4 + 165 = 169 12 IV. Description Croisée • Dans le domaine de la santé, on étudie en général 2 (ou plus) groupes et on décrit (et compare) différentes variables entre ces groupes donc, on fait des descriptions croisées Généralités o 1 variables qualitatives, qui définit nos groupes d’études (malades/non malades ; traitements 1 vs 2 ; traitement/Placebo) o 1 Variable quantitative : âge, poids, taille... o 1 variable qualitative : fumeur/non-fumeur, vivant/décédé́... • L’information est souvent résumée dans des tableaux qui présentent les paramètres statistiques pertinents des variables pour chacun des groupes • Il est également possible de décrire graphiquement entre les groupes, via des figures juxtaposées : o Qualitatif vs Qualitatif : diagrammes en bâton o Qualitatif vs Quantitatif discret : diagrammes en bâton o Qualitatif vs Quantitatif regroupée : histogrammes o Qualitatif vs Quantitatif continue : boxplots Synthétiser l’information • La description de variable quantitative vs variable quantitative est moins courante en médecine. o Plus complexe et fait souvent intervenir des méthodes graphiques comme les nuages de points. • Dans un article médical : il est d’usage d’avoir un tableau décrivant les caractéristiques de la population étudié́ : table ci-dessous Exemple 13 1. Statistique descriptive à 2 dimensions • Croiser les distributions de deux séries d’observations : Objectif o Nature des variables : 2 variables quantitatives ou 2 variables qualitatives ou l’une quantitative et l’autre qualitative. o Deux variables mesurées chez le même individu par exemple poids et taille, présence d’un cancer et éthylisme… • Séries appariées o Avant – après traitement ▪ Mesure du même individu Échantillonnage o Cas-témoin : le témoin (dépourvu de maladie étudiée) est apparié au cas sur différents points que l’on sait liés à cette maladie (par exemple appariement sur âge, sexe, …). • Séries non appariées o Même variable mesurée dans des groupes différents. Exemple de distribution à 2 variables Tableau de contingence Nuage de points 14 2. Tableau de contingence de deux variables qualitatives Variables • P avec p modalités • T avec t modalités Tableau de contingence ✪✪✪ Effectif 𝒏𝒊 𝒋 • Dont on dispose pour chaque cas • De la fréquence en ligne : Fréquences relatives 𝑛𝑖𝑗 𝑙𝑖 • De la fréquence en colonne : • De lé fréquence : 𝑛𝑖𝑗 𝑐𝑗 𝑛𝑖𝑗 𝑛 3. Fréquences relatives Exemple • 300 = nombre total de mesures. • 100 = Nombres d’individus ayant les yeux clairs. • 110 = Nombre d’individus ayant les cheveux blonds. • 50/300 =16.7 % d’individus ayant les cheveux blonds et les yeux clairs. • 50/110 =45.5 % d’individus parmi les blonds ayant les yeux clairs. • 50/100 =50 % d’individus parmi les yeux clairs ayant les cheveux blonds. 15 4. Tableau de contingence de 2 caractères binaires • Recherche de facteur de risque Très utilisé en santé o Enquêtes exposés/non exposés, etc. • Évaluation test diagnostic Tableau de contingence 16 V. Résume du cours ✪✪✪ TABLEAU DES NOTIONS A CONAITRE ✪✪✪ • Moyenne Arithmétique o Centre de gravité de la distribution. ✪✪ o Très sensible aux valeurs extrêmes. ✪✪ • La médiane o Peu sensible aux valeurs extrêmes et peut être utilisé pour des données ordinales. o La moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) ✪ : xi tel que Fi = 0,5 Les paramètres de Position o Deux formules de calculs selon si la série est paire ou impaire. • Quantiles ou fractiles o Q1 : xi tel que Fi = 0,25 ✪✪✪ o Q2= Médiane ✪✪ o Q3 : xi tel que Fi = 0,75 ✪✪✪ • Le Mode o Ou la valeur dominante=valeur la plus fréquente ✪✪✪, c-à-d. le xi correspondant avec la valeur ni (ou fi) maximum. Il peut y avoir un ou plusieurs modes. • Amplitude ou étendue o Ecart entre la valeur maximale et la valeur minimale o Non définie pour les distributions groupées. • Écart-interquartile o EIQ = Q3 – Q1. ✪✪✪ Les paramètres de dispersion • Variance et écart type o La variance o L’écart-type est la racine carrée de la variance ✪ ✪ ✪ (encore appelé standard déviation), il est dans l’unité de la variable. • Représentation en Box Plot 17 • Coefficient de Variation o Écart type divisé par la moyenne. ✪✪✪ o Nombre pur sans unités ✪ o Permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités. ✪ • Les classes o Permet de transformer une variable quantitative en variable (presque) Les paramètres de forme qualitatives ordinales ✪ o L’amplitude de la classe ou intervalle ou module de classe : ✪ Δ=borne supérieure−borne inférieure 18