Statistique I - M-DOYM-051 PDF
Document Details
Uploaded by SelfSufficientLight
Université de Mons
2024
Pr Christophe Lelubre
Tags
Summary
These notes cover statistical concepts, including reduction of data, calculation of means, and distributions. It includes examples of calculations.
Full Transcript
Statistique I M-DOYM-051 Pr Christophe Lelubre Année académique 2024-2025 Principe de réduction des données La description numérique des distributions a pour but de fournir des indices permettant de résumer une série brute de données, au travers d’un procédé de réductio...
Statistique I M-DOYM-051 Pr Christophe Lelubre Année académique 2024-2025 Principe de réduction des données La description numérique des distributions a pour but de fournir des indices permettant de résumer une série brute de données, au travers d’un procédé de réduction. Ceci permet de caractériser de façon plus simple les séries statistiques et les distributions observées. Réduction des données Mesures Mesures de position de dispersion 2 Réduction des données Mesures Mesures de position de dispersion Donnent un ordre de grandeur aux observations récoltées. Les mesures de localisation et de réduction On distingue principalement : sont symbolisées par des lettres particulières : – Moyenne(s) Arithmétique Si calculé sur une population « infinie » : lettre grecque Géométrique (Harmonique, quadratique, …) Si calculé au départ d’un échantillon : lettre latine – Médiane – Mode Exemple : variance : σ² (population) ou s² (échantillon) Exemples de correspondances entre statistiques d’échantillons et paramètres populationnels Sujet Glycémie à jeun (mg/dl) Au préalable … 1 106 2 92 Quelques définitions … 3 4 71 89 5 134 Série statistique : désigne une liste de mesures, 6 87 7 68 obtenues généralement lors d’une étude ou de relevés … … de mesures. Nombre d'enfants Effectif 0 9 1 12 Distribution de fréquences non groupée : distribution 2 3 15 11 dans laquelle on assigne un effectif (ou une fréquence 4 9 relative) à chaque modalité de la variable. 5 3 6 1 Classe (mg/dl) Effectif par classe Distribution de fréquences groupée : distribution dans [50-60[ 4 laquelle on assigne un effectif (ou une fréquence [60-70[ 10 [70-80[ 20 relative) à chaque centre de classe ; implique donc une [80-90[ 25 division au préalable en classes. [90-100[ 19 [100-110[ 14 [110-120[ 12 [120-130[ 6 [130-140[ 2 Eléments de statistique descriptive Moyenne arithmétique ❶ Moyenne arithmétique d’une série statistique Paramètre de tendance centrale le plus connu Sujet Glycémie à jeun (mg/dl) La moyenne arithmétique est obtenue 1 106 Notation générale en faisant la « somme de toutes les 2 92 – Population : µ valeurs », que l’on divise par le nombre 3 71 – Echantillon : m ou 𝑥 total d’observations n : 4 89 5 134 Formules différentes si 𝑛 𝑛 séries groupées ou non 𝑖=1 𝑥𝑖 1 6 87 groupées mais le 𝑥= = 𝑥𝑖 7 68 𝑛 𝑛 principe reste le même 𝑖=1 8 99 – Séries statistiques 9 114 – Distributions non 10 74 groupées Σxi = 934 mg/dl – Distributions groupées Moyenne = 934 / 10 = 93,4 mg/dl Moyenne arithmétique pour des distributions de fréquence non groupées ❷ Exemple : fratrie dans un groupe de 60 individus Pour des distributions de fréquence non Nombre de frères/soeurs (xi) Effectif (fi) fixi groupées (à k modalités), la formule 0 9 0 1 12 12 suivante simplifie les calculs et fait gagner 2 15 30 du temps : 3 11 33 4 9 36 5 3 15 𝑘 𝑘 𝑖=1 𝑓𝑖 𝑥𝑖 𝑖=1 𝑓𝑖 𝑥𝑖 Où fi désigne ici 6 1 6 l’effectif 𝑥= 𝑘 = de la ième modalité, Total 60 132 𝑖=1 𝑓𝑖 𝑛 n la taille de Moyenne 132 / 60 = 2,2 (frères/sœurs par individu) l’échantillon et k le nombre de modalités de la variable étudiée Diagr. en barres 8 Application : moyenne pondérée (weighted mean) Poids associé à ième mesure Dans certains cas, certaines valeurs ont plus de « poids » que d’autres, ce qui va donc cette ième valeur de la variable X influencer le calcul de la moyenne arithmétique sur la série – Ex : pondération par les ECTS; méta-analyses (poids de chaque étude) Nbre de Pour le calcul, on va attribuer un poids (weight) Wi à chaque valeur xi ; ce poids est un catégories témoin de la contribution de cette valeur à l’ensemble de la série La moyenne obtenue est appelée « moyenne pondérée » – Si tous les poids sont identiques, on aboutit à une moyenne arithmétique classique Exemple : salaire moyen dans une entreprise : influence d’une pondération Fonction Salaire (x 1000) Nombre employés Administratif et apparentés 55 50 Marketing et apparentés 65 100 Développeurs, ingénieurs, concepteurs, … 75 4000 Manager senior 120 15 Top manager 1200 5 = 4170 55 + 65 + 75 + 120 + 1200 𝑥= = 303.000 Moy arithmétique 5 50 × 55 + 65 × 100 + 75 × 4000 + 120 × 15 + 1200 × 5 317050 𝑥𝑤 = = = 76.031 4170 4170 Moy pondérée Application : Moyenne pondérée (weighted mean) : autre exemple Matière Note (xi) Pondération (wi) Note x Pondération (wixi) A 80 5 400 B 90 5 450 C 95 5 475 D 60 4 240 E 90 4 360 F 85 3 255 Total 26 2180 𝑘 𝑖=1 𝑤𝑖 𝑥𝑖 2180 𝑥𝑝𝑜𝑛𝑑é𝑟é𝑒 = 𝑘 = ~83,8 𝑖=1 𝑤𝑖 26 Illustration des pondérations : les méta-analyses ❸ Moyenne arithmétique sur une distribution de fréquence groupée Exemple : Glycémie à jeun (mg/dl) chez 112 sujets (1) Effectif Centre de N° classe Classe Centre * Effectif par classe classe (classe i) ni xi xi. ni 1 [50-60[ 4 55 220 2 [60-70[ 10 65 650 3 [70-80[ 20 75 1500 4 [80-90[ 25 85 2125 5 [90-100[ 19 95 1805 6 [100-110[ 14 105 1470 7 [110-120[ 12 115 1380 8 [120-130[ 6 125 750 9 [130-140[ 2 135 270 𝑘 𝑖=1 𝑛𝑖 𝑥𝑖10170 Σ ni = 112 𝑥= = =n Σ (xi. ni) = 10170 𝑛 112 = 90,8 𝑚𝑔/𝑑𝑙 Ici ni désigne l’effectif de la ième classe, et xi le centre de la ième classe Propriétés de la moyenne arithmétique Pour la population comme pour les échantillons, les déviations positives et négatives de chaque valeur par rapport à la moyenne arithmétique se « contrebalancent » parfaitement : 𝑛 La somme des écarts à la 𝑥𝑖 − 𝑥 = 0 moyenne est nulle 𝑖=1 13 La somme des écarts à la moyenne est nulle - illustration Ecarts négatifs Ecarts positifs Soit la série de valeurs : 1, 2, 4, 7, 9 La moyenne arithmétique de la série vaut (1 +2 + 4 + 7 + 9) / 5 = 4,6 La somme des écarts à la moyenne vaut : (1 - 4,6) + (2 - 4,6) + (4 - 4,6) + (7 - 4,6) + (9 - 4,6) = 0 Inconvénients de la moyenne arithmétique Très sensible aux valeurs extrêmes : Exemple : impact de la présence d’une seule glycémie « anormale » – Une seule valeur « extrême » peut faire (patient diabétique) sur la valeur de la moyenne d’une série changer la moyenne de façon significative statistique (au contraire de la médiane) : on parle de déplacement vers la gauche ou vers la Sujet Glycémie à jeun Sujet Glycémie à jeun droite. 1 106 1 106 2 92 2 92 Si distribution asymétrique : la 3 71 3 71 moyenne ne représente pas bien la 4 89 4 89 5 134 5 134 position centrale de la distribution : 6 87 6 87 7 68 7 68 8 99 8 99 9 114 9 114 10 74 10 352 Σ xi 934 Σ xi 1212 Σ xi / n 93,4 mg/dl Σ xi / n 121,2 mg/dl 15 Une valeur extrême peut « déplacer » la moyenne arithmétique de façon significative Autres types de moyennes (pour information) Moyenne géométrique – Utile pour les phénomènes de croissance – Démographie, biologie, … Moyenne harmonique Moyenne winsorisée, moyenne tronquée, moyenne mobile, … Moyenne quadratique Eléments de statistique descriptive Mode et médiane Distribution bimodale Mode et classe modale Mode = la ou les valeur(s) observée(s) de fréquence maximum, donc la valeur que l’on observe le plus souvent La ou les classe(s) modale(s) d’une distribution groupée correspond à la classe ou aux classes de Ex : histogramme de la taille parmi un groupe d’étudiants fréquence maximale. Distribution unimodale : distribution ne comportant qu’un seul mode. Une distribution multimodale en comporte plusieurs (deux modes : distribution bimodale; trois modes : distribution trimodale). – La présence de 2 modes peut traduire la présence de sous-populations dans l’échantillon observé La médiane Paramètre de position très utilisé en biologie / médecine lorsque les distributions de variables ne sont pas symétriques (asymétrie positive ou négative) : la moyenne est en effet peu relevante dans ces cas. = Paramètre de position tel que la moitié des observations de l’échantillon lui sont inférieures ou égales, et la moitié lui sont supérieures ou égales (sur une série ordonnée de valeurs). – Il s’agit donc d’une mesure de tendance centrale qui divise une série statistique ordonnée en deux groupes égaux L’évaluation de la médiane nécessite donc en premier lieu d’ordonner les valeurs par ordre croissant (et éventuellement les grouper en classes). Ordre croissant Médiane : séries statistiques et distributions non groupées Les données sont classées par ordre croissant Un rang (« rank ») est attribué à chaque valeur Nombre pair Nombre impair d’observations d’observations Médiane = moyenne arithmétique Médiane = des valeurs de rang n/2 et de rang (n/2)+1 : valeur de la donnée de rang 𝒏+𝟏 𝑥𝑛 + 𝑦 𝑛 2 2 +1 𝟐 Médiane = 2 21 Calcul de la médiane sur une série statistique : exemple ❶ ❷ n impair = 11 n pair = 10 Glycémie Glycémie Glycémie (mg/dl) Rang Glycémie (mg/dl) Rang ordonnée (mg/dl) ordonnée (mg/dl) 106 68 1 106 68 1 92 71 2 92 71 2 71 74 3 71 74 3 89 87 4 89 87 4 134 89 5 134 89 5 87 92 6 87 92 6 68 99 7 68 99 7 99 106 8 99 106 8 114 114 9 114 114 9 74 118 10 74 118 10 118 134 11 𝑥𝑛 + 𝑦 𝑛 +1 2 2 Médiane = Nombre de données = 11 => nombre impair de données. 2 Médiane = observation de rang (n+1)/2 = (11+1)/2 = 6 (sur Rang n/2 = 10/2 = rang n°5 => valeur lue : 89 mg/dl données ordonnées). Rang (n/2)+1 = rang n°6 => valeur lue : 92 mg/dl La médiane de la glycémie est donc la valeur de rang 6 : 92 mg/dl Médiane de la glycémie est donc la moyenne de ces deux valeurs = (89+92)/2 = 90,5 mg/dl Détermination approximative de la médiane d’une variable continue – méthode graphique Exemple : la survie médiane (« median survival ») : temps au bout duquel 50% de l’effectif de l’étude est encore en vie Probabilité Exemple : de survie Glioblastome Pourcentage de malades encore en vie au moment t (mois) Deux façons de « lire » une courbe de survie Distinguer « survie à x (exemple : 5) années » et survie médiane : Survie à 5 ans Survie médiane Quelques propriétés de la médiane Lorsqu’une distribution unimodale est asymétrique, la médiane est la mesure de tendance centrale la plus révélatrice, la moyenne subissant l’influence des valeurs extrêmes. Illustration : différence entre salaire moyen et salaire médian (histogramme des salaires bruts) Médiane Réduction des données Mesures Mesures de position de dispersion Ordre de grandeur Permettent de déchiffrer la variabilité des des observations valeurs observées autour d’un paramètre de position. Nous avons principalement : Nous avons principalement : – Moyenne(s) – Variance Arithmétique Géométrique – Ecart-type (Harmonique) (Quadratique) – Coefficient de variation – Médiane – Quantiles, écart interquartile – Mode – Amplitude Mesures de dispersion La variance et l’écart-type d’une distribution sont des paramètres de dispersion extrêmement fréquents. – Utiles pour la description de la dispersion d’une série de données ou d’une distribution – Utiles pour les tests statistiques ! Ils mesurent la dispersion des données autour de leur valeur centrale Intuitivement, la mesure de la dispersion de chacune des données par rapport à la moyenne pourrait s’écrire de la façon suivante : « Moyenne des 𝑛 écarts à la 𝑖=1 𝑥𝑖 − 𝑥 = Zéro ! moyenne » 𝑛 Concept donc inopérant en pratique ! La somme des écarts à la moyenne est nulle Deux solutions à ce problème Valeurs absolues Mise au carré « Distance » moyenne de chaque valeur par rapport à la = « SCE » moyenne de la Somme des carrés série des écarts Ecart moyen absolu (EMA) Peu utilisé en Ecart moyen Variance biostatistique Mean deviation (Ecart-type) Mean absolute deviation (MAD) Variance sur un échantillon Le principe est de mettre au carré l’écart entre chaque valeur individuelle et la moyenne, et 𝑛 ensuite calculer la moyenne de cet écart 2 1 2 – Il s’agit donc de la moyenne des carrés des écarts à la 𝑠é𝑐ℎ. = 𝑥𝑖 − 𝑥 moyenne 𝑛−1 𝑖=1 Notation – Effectif de l’échantillon : taille n – Population : σ2 (dénominateur = N) 𝑛 2 1 𝑛 2 – Echantillon : s2 (dénominateur = n - 1) 𝑥 𝑖=1 𝑖 − 𝑥 𝑖=1 𝑖 2 𝑠é𝑐ℎ. = 𝑛 Attention, les unités de la variance sont celles 𝑛−1 de la variable mises au carré ! NB : Si division par n au lieu de n - 1, l’indice Utilisée surtout en statistique inférentielle / calculé est un « estimateur biaisé » de la vraie tests statistiques >< stat. descriptive variance σ2 => On divise plutôt par n-1 Variance d’une variable sur un échantillon exemple de calcul Exemple de 8 patients anémiques : dosage du taux d’hémoglobine 𝒙𝒊 − 𝒙 𝟐 Patient Taux hémoglobine (g/dl) xi 𝒙𝒊 − 𝒙 1 8,1 -1,4 1,96 2 7,7 -1,8 3,24 3 9,9 0,4 0,16 𝑛 4 10,2 0,7 0,49 2 1 2 5 9,3 -0,2 0,04 𝑠é𝑐ℎ. = 𝑥𝑖 − 𝑥 6 8,9 -0,6 0,36 𝑛−1 𝑖=1 7 11,8 2,3 5,29 8 10,1 0,6 0,36 Σ Σxi = 76 SCE = 11,9 Σxi/n 9,5 = 𝑿 Moyenne = Σxi/n = 76 / 8 = 9,5 g/dl Variance = 11,9 / (8 - 1) = 1,7 g2/dl2 31 Variance : formules opérationnelles Patient Taux hb. (xi) xi2 1 8,1 65,61 2 7,7 59,29 3 9,9 98,01 4 10,2 104,04 5 9,3 86,49 𝑛 2 1 𝑛 2 6 8,9 79,21 2 𝑖=1 𝑥𝑖 − 𝑛 𝑥 𝑖=1 𝑖 7 11,8 139,24 𝑠é𝑐ℎ. = 8 10,1 102,01 𝑛−1 9 11,6 134,56 10 10,4 108,16 136,4 2 11 7,8 60,84 1275,44 − 12 6,7 44,89 = 15 = 2,51 𝑔2 𝑑 𝑙² 13 9,2 84,64 15 − 1 14 6,9 47,61 15 7,8 60,84 32 Σ 136,4 1275,44 Ecart-type d’une variable d’échantillon Ecart-type = Ecart quadratique moyen = Calcul d’un écart-type Déviation standard (standard deviation) sur un échantillon de taille n = Racine carrée de la variance 𝑛 – Est donc toujours ≥0 1 – Possède les mêmes unités que la variable d’origine 𝑠é𝑐ℎ. = 𝑥𝑖 − 𝑥 2 𝑛−1 𝑖=1 Mesure de dispersion la plus fréquemment utilisée en statistique descriptive (variance : pour la statistique inférentielle), parfois à tort.. – Très souvent on exprime une position et une 𝑛 2 1 𝑛 2 dispersion d’une série de données par l’expression : 𝑥 𝑖=1 𝑖 − 𝑖=1 𝑥𝑖 𝑠é𝑐ℎ. = 𝑛 m ± SD, ou 𝐱 ± 𝐒𝐃 : pour un échantillon µ ± σ : pour une population 𝑛−1 (Ceci implique une distribution symétrique autour de la moyenne !) 33 L’écart-type est une mesure de l’étendue de la dispersion des données autour de leur moyenne Exemple : mesure de la taille sur un échantillon de 6 personnes 𝑛 2 1 2 182 + 82 + 152 + 82 + 92 + 62 𝑠é𝑐ℎ. = 𝑥𝑖 − 𝑥 ≈ 12,6 𝑛−1 6−1 𝑖=1 variance moyenne Adapté de DATAtab Moyenne et écart-type Un exemple médical : diamètre moyen et écart-type du diamètre de l’aorte chez les hommes et les femmes (mean +/- SD) Signification de l’écart-type sur un histogramme d’allure gaussienne Exemple : échantillon de n = 5000 observations Moyenne de la distribution Sur un histogramme d’allure gaussienne, environ 95% des individus de l’échantillon ont une valeur comprise dans l’intervalle allant de « moyenne – 2X écart-type » (mean – 2SD) jusqu’à « moyenne + 2 X écart-type » (mean + 2SD) : ils sont endéans les deux écarts-types autour de la moyenne. Toujours vérifier que moyenne +/- 2 SD est > 0 pour les variables à valeurs uniquement positives ! Ex : dosage d’une hormone : si par exemple le dosage (moy. +/- SD) = 3 +/- 2 pg/ml => incohérent car possibilité d’avoir des valeurs de concentrations négatives, ce qui est impossible. Ceci suggère que la variable se distribue de manière non gaussienne. http://www.biostathandbook.com/dispersion.html Deux échantillons de même moyenne (300) … mais d’écart-type différent (20 ou 50) SD = 20 SD = 50 1SD 1SD 1SD 1SD 2/3 des individus 2/3 des individus ont une moyenne ont une moyenne comprise entre 280 et 320 comprise entre 250 et 350 (300 +/- [1x20]) (300 +/- [1x50]) ! Raisonnement valable sur une distribution d’allure gaussienne … loin d’être toujours le cas en biologie … http://www.wormbook.org/chapters/www_statisticalanalysis/statisticalanalysis.html#sec1-2 Moyenne et écart-type : Représentations graphiques usuelles « Dynamite (plunger) plot » Barre d’erreur Représente le plus souvent l’écart-type de la distribution. Moyenne Attention, la barre d’erreur est symétrique autour de la moyenne (même si elle n’est pas forcément affichée sur le graphique). Moyenne Plusieurs façons (équivalentes) de représenter la moyenne et l’écart-type Ecart-type Moy. Ecart-type Relâchement du muscle lisse de vessie (noradrénaline) chez le rat Motulsky, Intuitive Biostatistics, 3rd edition, Oxford Univ Press, 2014 Exemple de barres d’erreur Prévalence des anticorps des hépatites A (anti-HAV) et E (anti- L’amplitude de la barre d’erreur traduit l’importance HEV) selon l’âge de la dispersion des données Attention, les barres d’erreur peuvent revêtir différentes significations, autres que l’écart-type ! Jeu de données initial Relâchement du muscle Différentes représentations d’un même jeu de données lisse de vessie (noradrénaline) chez le rat Motulsky, Intuitive Biostatistics, 3rd edition, Oxford Univ Press, 2014 Représentées sous la forme de dynamite plots, la moyenne et l’écart-type peuvent prêter à confusion et représenter des données très différentes ! Les « dynamite plots » sont en fait controversés : – Trois situations très différentes (B, C, D) peuvent correspondre à une même représentation (A) ! – Nécessité, pour les petits échantillons, d’afficher les données de façon individuelle : « dot plots » Chaque point représente 1 patient Motulsky, Intuitive Biostatistics, 3rd edition, Oxford Univ Press, 2014 L’erreur standard sur la moyenne (SEM, ESM) L’erreur standard de la moyenne (SEM : « standard error of the mean ») désigne l’écart-type de la distribution des moyennes des échantillons. – Intuitivement, SEM est plus petit que SD car les moyennes des échantillons sont moins dispersées entre elles que les valeurs à l’intérieur de chaque échantillon. Mathématiquement, SEM est égal à l’écart-type divisé par la racine carrée de la taille de l’échantillon. – Ce n’est pas à proprement parler de la statistique descriptive !! – Sera discuté également plus loin dans le cours. Echantillon moyenne 𝑆𝐷 Echantillon moyenne 𝑆𝐸𝑀 = Echantillon moyenne 𝑛 Echantillon moyenne Echantillon moyenne Distribution des moyennes Echantillon moyenne Population Ecart-type de cette distribution des moyennes = SEM Echantillon moyenne Echantillon moyenne Echantillon moyenne Echantillon moyenne L’erreur standard sur la moyenne : illustration (1) Exemple : on pèse 5 souris : calcul du poids moyen et de l’écart-type Poids moyen Josh Starmer, StatQuest L’erreur standard : illustration (2) On répète par exemple l’expérience 5 fois avec des souris différentes : Josh Starmer, StatQuest L’erreur standard : illustration (3) Si on rapporte sur une même ligne l’ensemble des moyennes calculées : Josh Starmer, StatQuest Représentation graphique des écart-types (SD) et des SEM Dans certaines publications les résultats peuvent être présentés sous la forme de mean ± SEM au lieu de mean ± SD SEM ne quantifie pas la variabilité parmi les valeurs observées ! Quantifie la précision avec laquelle on « connaît » la moyenne de la population d’origine (inférence) https://www.data-to-viz.com/caveat/error_bar.html Statistique descriptive univariée Paramètres de dispersion : Quantiles Percentiles Courbes de croissance Quantiles Ce sont des mesures de position qui vont diviser une série statistique ordonnée en plusieurs groupes qui comprennent chacun la même proportion de données. C’est une extension de la notion de médiane. On distingue dans les quantiles : – Les quartiles – (Les quintiles et déciles) – (Per)centiles Quartiles Divisent une série statistique ordonnée en quatre groupes qui comprennent chacun approximativement 25% des données de la série. On les nomme Q1, Q2 et Q3 : – 25% des données sont < Q1 – 50% des données sont < Q2 => Q2 = médiane – 75% des données sont < Q3 – Et donc 25% des données sont > Q3 L’écart entre Q1 et Q3 s’appelle écart interquartile = IQR L’écart entre les valeurs min et max de la série se nomme « étendue » ou « amplitude » ou « range » IQR Etendue = amplitude Centiles ou percentiles 99 valeurs qui divisent la série Exemple : percentile 20 statistique en 100 groupes comprenant chacun environ 1% des données Souvent dénommé percentile « p » – P10, P20, …, P90, … P50 = médiane ! Utilisé notamment en pédiatrie (courbes de croissance des enfants) 51 Centiles ou percentiles Exemple de percentiles Courbes de croissance Pour chaque âge (et sexe), on peut voir les différents percentiles correspondant à la taille et au poids des enfants Ex : A 8 ans, la médiane (= P50) du poids des garçons est de 25 kg Ex : un enfant qui a une taille au P25 : signifie que 25% des enfants de son âge ont une taille inférieure ou égale à la sienne. 53 Les courbes de croissance permettent de suivre le développement individuel de l’enfant et permettent de dépister certaines anomalies lorsque la courbe montre Evolution une « cassure » attendue (bleu) « Cassure » de la courbe (rouge) Autre exemple : percentiles pour le BMI selon l’âge BMI = « Body Mass Index » (indice de Quételet) = IMC (Indice de masse corporelle) = Poids (kg) / [Taille (m)]2 Périmètre crânien Hydrocéphalie Statistique descriptive univariée Box plots Application graphique des quartiles : le « box plot » ou « box-and-whisker plot » Graphique particulièrement utilisé : – Utilisé notamment pour représenter des distributions Range = étendue = (valeur max – valeur min) non symétriques (si symétriques : moyenne +/- écart-type et bar plots) – Permet de représenter en une Min, Q1, médiane, Q3 et max sont nommés les « five fois l’ensemble d’une summary numbers » distribution sous forme de sa « Whisker » médiane, les percentiles 25 (Q1) et 75 (Q3), l’étendue de la distribution ainsi que les « outliers » – Nécessite un nombre minimal de données (>5) IQR = écart interquartile = Q3-Q1 Box plot « outliers » et « extrêmes » Lorsqu’une donnée se trouve à plus de 1,5 IQR en- dessous du premier (Q1) ou au-dessus du troisième (Q3) quartile, cette donnée est un outlier. Si une donnée est à plus de 3 IQR à partir de Q1 ou Q3, alors on parle de valeur extrême (encore « plus extrême » qu’un outlier). Vmax et Vmin (« bouts des moustaches ») sont les valeurs maximum et minimum dans l’intervalle [Q1- (1,5 IQR); Q3+(1,5 IQR)] Box plot dans le cas d’une distribution asymétrique Outlier Valeur extrême Exemple de box plots avec des outliers V max On considère trois types d’infections Médiane parasitaires différentes Q3 Pour chacune de ces infections, on regarde la distribution du nombre de PN éosinophiles dans le sang de sujets malades, et on calcule la médiane, Q1 et Q3, IQR et les outliers Q1 V min Autre exemple de box plots ARN messagers de différents gènes dans des formes de fibrose hépatique (hépatite C) Caillot et al., Am J Pathol 2009 VEMS VEMS VEMS VEMS VEMS VEMS Sujet (litres) Sujet (litres) Sujet (litres) Sujet (litres) Sujet (litres) Sujet (litres) Représentation graphique d’une 1 4,47 11 4,47 21 3,48 31 5 41 3,42 51 3,78 série de données 2 3,1 12 3,57 22 4,2 32 4,5 42 3,6 52 3,75 3 4,5 13 2,85 23 3,7 33 4,2 43 3,2 53 4,05 Box plots– exemple des VEMS 4 4,9 14 5,1 24 5,3 34 4,16 44 4,56 54 3,54 5 3,5 15 5,2 25 4,71 35 3,7 45 4,78 55 4,14 6 4,14 16 4,8 26 4,1 36 3,83 46 3,6 56 2,98 7 4,32 17 5,1 27 4,3 37 3,9 47 3,96 57 3,54 8 4,8 18 4,3 28 3,39 38 4,47 48 3,19 « Dot density plot » 9 3,1 19 4,7 29 3,69 39 3,3 49 2,85 10 4,68 20 4,06 30 4,44 40 5,43 50 3,04 Boxplot Attention aux échelles !! Eléments de statistique descriptive Caractéristiques principales d’une distribution Caractéristiques principales d’une distribution ❶ Position – centre ❷ Dispersion (étalement) => Reflété par la moyenne => Reflété par l’écart-type, … ou la médiane Position Dispersion ❸ Nombre de modes : distribution unimodale, bimodale, trimodale, … 65 Caractéristiques principales d’une distribution – (a)symétrie (Dis)symétrie de la distribution (SKEWNESS) : – Positive : Distribution décalée à gauche de la moyenne, et donc une queue de distribution étalée vers la droite – Négative : Distribution décalée à droite de la moyenne, et donc une queue de distribution étalée vers la gauche – Nulle : distribution symétrique – Peut être déterminée selon différents indices (en utilisant des moments non centrés d’ordre 3) : coefficient d’asymétrie de Fisher, de Pearson, … Asymétrie positive Asymétrie négative Asymétrie – rapports entre moyenne, médiane et mode selon le type d’asymétrie Exemple de distribution symétrique Glycémies sur une population de 1000 individus non diabétiques Exemple de distribution symétrique Pression artérielle systolique et diastolique Exemple de distribution avec une asymétrie positive : durées de ventilation mécanique On étudie les durées de ventilation mécanique (VM) Histogramme du nombre de jours de VM chez des patients hospitalisés en unités de soins intensifs Pour chaque patient ayant bénéficié de ventilation mécanique (n = 1025 patients dans cette étude), on a noté, pendant un an, le nombre de jours durant lesquels le patient a eu une VM Exemples de distributions présentant une asymétrie négative Caractéristiques principales d’une distribution – coefficient de « kurtosis » Coefficient d’applatissement (kurtosis), ou voussure – Renvoie à la concentration relative des données au centre, aux queues de distribution et aux épaules des distributions Principales morphologies Types de distributions de fréquence La représentation des données observées sous forme de diagrammes permet d’avoir une première idée de l’aspect général des distributions étudiées On peut diviser ces distributions, en fonction de leur allure, en un petit nombre de types fondamentaux : – Distribution dite « en cloche » – Distribution en i – Distribution en j – Distribution en u – …. Pharmacologie : relations dose-réponse Courbe en « U » Whitlock et al., Lancet 2009 Adolphe Quételet