Statistiques I - Introduction aux statistiques biomédicales - 2024-2025 - PDF

Summary

This document is a lecture or course material on biostatistics, suitable for an undergraduate course at the Université de Mons. It covers introductory material on statistical concepts and potentially some examples. The document mentions various topics such as definitions, applications, and some examples of statistical problems like normal ranges, reliability of tests, effectiveness of treatments, and cancer diagnostics.

Full Transcript

Statistiques I Introduction aux statistiques biomédicales M-DOYM-051 Pr Christophe Lelubre Année académique 2024-2025 Coordonnées Pr Christophe Lelubre Service de Médecine Interne CHU de Charleroi - Hôpital Civil Marie Curie Contact :...

Statistiques I Introduction aux statistiques biomédicales M-DOYM-051 Pr Christophe Lelubre Année académique 2024-2025 Coordonnées Pr Christophe Lelubre Service de Médecine Interne CHU de Charleroi - Hôpital Civil Marie Curie Contact : [email protected] [email protected] Lelubre - Biostat - BA1 2 Chapitre préliminaire Définition(s) et champs d’application de la (bio)statistique La statistique appliquée au vivant Plan général du cours et sa place dans le cursus de médecine La variabilité du vivant 3 Définition(s) de la statistique De nos jours, les statistiques sont présentes dans virtuellement tous les domaines de l’activité humaine ! Etymologies diverses : – « Status » : Etat – « Staatskunde » – Terme relatif au départ à la collecte d’informations sur la population afin de pouvoir collecter l’impôt / registres de décès. Définition controversée : « Parmi les thèmes à propos desquels les statisticiens ne sont pas d'accord, se trouve la définition de leur science » (Kendall, 1945) – « Ensemble des méthodes qui ont pour objet la collecte, le traitement et l'interprétation de données d'observation relatives à un groupe d'individus ou d'unités » – « Discipline établissant des inférences au départ de données observées et permettant l’établissement de décisions dans un contexte d’incertitude » (Freund & Walpole, Mathematical Statistics, 1987) Les champs d’application de la statistique sont très vastes ! En psychologie : la notion de quotient intellectuel, de nombreux tests statistiques, échelles et questionnaires, … En géophysique : prévisions météorologiques, climatologie, pollution, études des océans, … En démographie : recensement, pyramides des âges, … En sciences économiques et sociales : étude du comportement d'un groupe de population ou d'un secteur économique, économétrie, … En sociologie : les sources statistiques constituent des matériaux d'enquête, et les méthodes statistiques sont utilisées comme techniques de traitement des données ; En marketing : le sondage d'opinion devient un outil pour la décision ou l'investissement Jeux de hasard et paris : loto, paris équestres : pour "prévoir" les résultats (attribuer des probabilités à la réalisation de chaque événement) En physique : l'étude de la mécanique statistique (gaz) et de la thermodynamique statistique permet de déduire du comportement de particules individuelles un comportement global, … En métrologie, pour tout ce qui concerne les systèmes de mesure et les mesures elles-mêmes Assurance et finance : calcul des risques, actuariat... Etc … Dans les sciences de la vie – Quelques exemples de problèmes biomédicaux où intervient le raisonnement statistique Quelle est la valeur « normale » d’une grandeur biologique (taille, glycémie, …) ? – A partir de quel niveau ou de quelle valeur vais-je considérer qu’une mesure est « anormale » (ex : glycémie et diabète) ? Quelle est la fiabilité d’un examen complémentaire (ex : dépistage du SIDA par une prise de sang) : sachant que le test est positif, quelle est la probabilité d’être réellement malade ? – Touche aux notions de performances d’un test : VPP, VPN, sensibilité, spécificité, … Le traitement A est-il plus « efficace » que le traitement B (exemple : comparaison de deux traitements contre l’hypertension artérielle) ? – Notion de randomisation, puissance et calcul des effectifs, NNT, … Les fumeurs sont-ils plus susceptibles de développer un cancer du poumon ? – Cf épidémiologie Quels sont les facteurs de « mauvais pronostic » d’un cancer du côlon ? – Analyses multivariables La survie est-elle améliorée de façon « significative » par le traitement ? Statistique I : Plan général du cours (I)  Définitions de la biostatistique ; ses objectifs  Variabilité en biologie : principes et conséquences  Types de variables en biologie - médecine  Notions de population et d’échantillon  Eléments de statistique descriptive à une et deux dimensions  Représentation graphique des données  Diagrammes en bâtons, en camembert (« chart pie »)  Histogrammes  Whisker box plot (boîte à moustache)  Courbes de croissance, …  Statistiques de localisation (moyenne, médiane, mode)  Statistiques de dispersion (IQR et percentiles, variance, écart-type)  Formes des distributions, notion d’asymétrie (skewness), de kurtosis  Description de la relation entre deux variables quantitatives continues (statistique bivariée)  Corrélation, coefficient de corrélation (Pearson, Spearman)  Régression linéaire simple et estimation des coefficients par la méthode de la droite des moindres carrés Statistique I : Plan général du cours (II)  Introduction (brève) aux probabilités  Notion de probabilité conditionnelle et bases du théorème de Bayes  Principales lois de probabilités (discrètes et continues) et utilisation de tables  Loi binomiale, loi de Poisson  Loi normale ou de Gauss-Laplace  Loi normale centrée réduite (loi de Z)  Calculs de probabilités basés sur la loi de Z  Théorème central limite  Dérivés de la loi normale (Student, Fisher, Chi²)  Intervalles de confiance  D’une moyenne Statistique II  D’une proportion  D’une différence de moyennes  Stat. Inférentielle - tests statistiques La variabilité comme caractéristique fondamentale des sciences de la vie L’utilisation de l’approche statistique dans les sciences de la vie est due à une caractéristique intrinsèque et fondamentale que l’on retrouve dans les systèmes vivants : La variabilité du vivant ‘‘Variability is the law of life, and as no two faces are the same, so no two bodies are alike, and no two individuals react alike and behave alike under the abnormal conditions which we know as disease’’ William Osler, 1906 La variabilité du vivant Il n‘y a pas dans le monde vivant Exemple : Répartition du poids de 2673 nouveau-nés nés à terme dans une maternité deux individus qui, pour peu qu'on les observe avec des moyens suffisants, se révèlent rigoureusement identiques (y compris jumeaux homozygotes). Bouyer, Méthodes statistiques, De Boeck 1996 La variabilité du vivant Des méthodes statistiques seront donc nécessaires afin Statistique descriptive de prendre en compte cette variabilité inhérente au vivant Valeur « centrale » : On peut chercher à résumer les caractéristiques d’une Statistiques de localisation variable donnée (ex : taille, …) en cherchant à définir pour la population étudiée une valeur centrale autour de laquelle vont fluctuer les individus (variables de localisation), et voir avec quelle ampleur cette valeur peut fluctuer entre les individus (variables de dispersion). – Objet de la « Statistique descriptive » Comme on ne peut étudier en général tous les individus d’une population, on étudiera le plus souvent les caractéristiques d’un échantillon représentatif de cette population, pour ensuite essayer de dégager des caractéristiques plus générales sur la population d’où cet échantillon est tiré. – Objet de la « Statistique inférentielle » « Dispersion » Sources de la variabilité du vivant Variabilité intra-individuelle < Variabilité inter-individuelle La même grandeur mesurée chez un même La grandeur d’une variable individu peut être soumise à des fluctuations, varie d’un individu à l’autre : taille, toutes autres choses étant égales par ailleurs poids, … (même observateur, même instrument de mesure utilisé) : T°, dosage d’une hormone, glycémie, … 12 Variabilité intra-individuelle : exemples Rythme du cortisol : rythme circadien On peut distinguer par exemple : Période Variations nycthémérales (ou circadiennes) Amplitude – = sur un cycle ou période de 24h Ex : Température corporelle (plus élevée le soir), taux hormonaux, …. Variations sur d’autres cycles : – Rythmes « ultradiens » : période < 24h : Pulses de GnRH : rythme ultradien certaines hormones par exemple. – Rythmes « infradiens » : période plus longue que 24h. Cycle menstruel (28 jours) : modifications cycliques des taux hormonaux chez la femme, … 13 Variabilité intra-individuelle : le cycle menstruel Rythme infradien (période = +/- 28 j) Sources de la variabilité ❶ Variabilité expérimentale Variabilité due à l’appareil de mesure (ex : glucomètre) La mesure d’une variable peut varier sur un même individu en fonction des conditions de mesure (ex : mesure de la tension artérielle, dosage de la prolactine, ….) Règles de mesure ! Exemples de variabilité expérimentale Mesure de la pression artérielle « Researchers say few physicians and their staffs take proper blood pressure readings, putting patients at risk of undertreatment or overtreatment of hypertension. Steps such as seating patients with their feet flat on the floor and allowing them to rest for 5 minutes before taking a reading can help ensure proper assessment of blood pressure ». Mitka, JAMA 2008 Sources de la variabilité ❷ Variabilité due à l’appareil de Variabilité expérimentale mesure (ex : glucomètre) La mesure d’une variable peut varier sur un même individu en fonction des conditions de mesure (ex : mesure de la tension artérielle, dosage de la prolactine, ….) Règles de mesure ! « Absence de biais » (« accuracy ») et précision Situation la pire Biais : présence d’une erreur de mesure systématique : l’appareil fournir une valeur systématiquement décalée par rapport à la vraie valeur de mesure; ce décalage (espace entre les deux lignes verticales en pointillé) est reflété par le terme « accuracy »; plus le décalage est faible (« high accuracy »), moins le biais est important. Précision : l’appareil de mesure fournit-il un résultat similaire si l’on effectue la même mesure plusieurs fois d’affilée ? A trait à la reproductibilité de la mesure. Evaluée par la « largeur » de la courbe : grande précision = courbe « étroite ». Différent du biais : il existe des appareils très précis mais biaisés !! Situation idéale Notion de variabilité inter- et intra-observateur La mesure d’une variable donnée peut être sujette à variation en fonction de l’expérimentateur qui effectue la mesure, toutes autres choses étant égales (même patient, même appareil de mesure) Variabilité intra-observateur : – Désigne les différences entre observations du même phénomène par un même chercheur / observateur Ex : mesure des dimensions d’un nodule pulmonaire sur un scanner des poumons par le même radiologue à deux jours d’intervalle Variabilité inter-observateur : – Désigne les différences entre les observations du même phénomène par les différents chercheurs / observateurs Ex : coupe histologique, comptage cellulaire, scores échographiques, mesures radiologiques, … – Notion de coefficient d’agrément / concordance interjuges (kappa, …) Conséquences de la variabilité : les fluctuations d’échantillonnage Variabilité individuelle implique une variabilité au niveau des échantillons : Illustration Soit une population avec 30% malades – La composition de deux échantillons tirés au On prend 10 000 échantillons de 20 sort et venant d’une même population individus; normalement on s’attend à d’origine ne sera en général pas la même observer 6 malades dans chaque (fluctuations d’un échantillon à l’autre) échantillon (30% de 20) … La réalité est toute autre.. – Autrement dit, au départ d’une même population, on peut sélectionner des échantillons possiblement « fort différents » les uns des autres (par exemple, en terme de nombre de malades, de glycémie, …) Nbre de malades par échantillon Ceci débouchera sur les notions : – D’intervalle de confiance Bouyer, Méthodes statistiques, De Boeck 1996 – De test statistique (cours de Statistique II) De plus, si on répète à nouveau l’expérience avec 10000 nouveaux échantillons, on n’obtiendra pas tout à fait la même distribution ! Fluctuations d’échantillonnage (I) 3 échantillons de composition différente issus de la même population de référence Beuscart et al. Biostatistique 2009 Fluctuations d’échantillonnage (II) Deux échantillons « semblables » issus pourtant, par le « hasard » de l’échantillonnage, de deux populations d’origine radicalement différentes. La comparaison de ces deux échantillons pourrait laisser croire qu’ils sont issus de la même population d’origine alors qu’il n’en est rien. Beuscart et al. Biostatistique 2009 Le but d’une étude statistique est en général d’étudier une ou Population – échantillon - des caractéristique(s) moyenne(s) d’une population – Les éléments de cette population (nommés « unités statistiques », sondage « unités d’observation ») sont le plus souvent, dans les sciences de la vie, des individus (ou d’autres types d’unités : cellules, prélèvements de terre, …). On sélectionne en général, au départ de cette population, un échantillon, sous-ensemble de la population – Ceci se fait au travers d’un procédé d’échantillonnage : opération consistant à identifier un sous-groupe d’individus dans une population afin d’y recueillir des données statistiques – Echantillon doit être représentatif de la population source : Fait appel à des méthodes d’échantillonnage (sampling methods) Le plus classique : sélection des individus au hasard (échantillon aléatoire = condition mathématique nécessaire dans la plupart des tests) – C’est au travers des données fournies par l’échantillon représentatif que l’on pourra dégager des caractéristiques plus générales sur la population-source, population trop grande que pour pouvoir être étudiée dans son entièreté (sauf cas particuliers : recensement ou collecte exhaustive). Terminologie basique de l’échantillonnage Avantages et inconvénients de l’échantillonnage Diverses méthodes de constitution de l’échantillon existent, et sont parfois complexes (cf cours épidémiologie). La méthode la plus simple d’obtenir un échantillon représentatif de la population d’origine est la sélection des individus au hasard – Chaque individu a une probabilité identique de se retrouver inclus dans l’échantillon constitué – Peut se faire par des tables ou actuellement des générateurs de nombres aléatoires (logiciels) Avantage de l’échantillonnage : l’échantillonnage permet une économie de moyens : l’échantillon permet d’obtenir une estimation des paramètres d’une population sans être obligé de devoir étudier toute cette population. Inconvénients de l’échantillonnage : – Les mesures fournies par un échantillon ne permettent qu’une estimation des véritables valeurs relatives à la population – Ces estimations comportent par conséquence « un risque d’erreur », que l’on peut quantifier. – La précision de l’estimation dépend de plusieurs paramètres dont la taille de l’échantillon : meilleure précision de l’estimation si échantillon de grande taille. Variable Chaque individu, animal, cellule, … (unité statistique) appartenant à une population peut être décrit par un ensemble de caractéristiques appelées variables (ou caractères). Une variable se définit comme étant tout facteur susceptible d'être différent selon les personnes, le temps ou les lieux considérés. C’est donc une caractéristique ou un résultat que l’on peut observer ou mesurer. Ces variables sont donc susceptibles de prendre une valeur différente selon les individus. Exemples de variables : – Taille des individus, poids, glycémie, âge, … – Concentration de substances dans le sang – Données de questionnaires (échelles de Likert, …) – Données de survie – Type de mutation, ou status wild type / muté – Durée d’incubation d’une maladie – … Variables quantitatives et qualitatives NB : on nomme modalités d’une Variable variable sont les valeurs possibles (numériques ou non) que la variable peut prendre. Implications en termes de test statistique !! Quantitative Qualitative Caractérisée par des valeurs Variables qui n’ont pas de valeur num. numériques, exploitables arithmétiquement Peuvent être ordonnées ou non Exemples : Taille, poids, nombre d’enfants, Exemples : couleur yeux, groupe sanguin, type de concentration d’une hormone, … maladie, de complication, de mutation … Exemple : échantillon d’étudiants Variables qualitatives et quantitatives n = 45 sujets Illustration On étudie 5 variables : Taille, poids, genre, Variables Variables qualitatives Variable fratrie, couleur yeux quantitatives quantitative Légende : T : Taille P : Poids S : Sexe (genre) F : Fratrie C : Couleur des yeux Lelubre - Biostat - BA1 28 Variable quantitative Temporelle « Discrétisation » Discrète Continue - Variables numériques discontinues - Ex : données issues d’un dénombrement - Variables pouvant prendre (« count data ») n’importe quelle valeur - Le plus souvent les valeurs prises numérique (ensemble des nombres par ces variables sont des nombres réels) dans l’intervalle des observations entiers, sans valeur intermédiaire possible - Infinité théorique de valeurs Modélisation et gestion possibles (! Limites de l’instrument de Exemples tout à fait mesure) mais souvent valeurs arrondies Nombre de cellules dans un échantillon différentes ! -Regroupement possible en classes Nombre de souris dans une cage -Ex : Taille, poids, glycémie, [ ], … Nombre de frères et sœurs, … Cas particulier : variable temporelle Variable quantitative particulière qui utilise les unités de mesure du temps. Deux sous-groupes selon que l’on fasse référence à un instant donné ou bien une durée : – Variables de durée (sec, min, h, j, sem, …) : variables continues (durée d’une grossesse, d’une maladie, d’une phase d’incubation, …) – Variables définissant un instant donné (date d’un accident, heure de prise d’un médicament, …) 30 Variable qualitative Variable Classes Etat de santé Malade Non malade Survie Vivant Décédé Nominale Binaire Tabagisme Fumeur Non fumeur 0/1 Ordinale « categorical » Mutation delta32 CCR5 (HIV) Présence Absence Résultat d’un test Positif Négatif « ordinal » diagnostique - Variable dont les classes (modalités, niveaux, levels) ne - Variable contenant des classes (niveaux, levels) qui peuvent pas être hiérarchisées : elles sont nommées mais peuvent être ordonnées selon un ordre logique, une pas ordonnées échelle de valeurs (ex : échelles de Likert) - Ordre de présentation est donc arbitraire - On peut les coder pour simplifier le traitement de - On peut les coder pour simplifier le traitement de données (! Codage artificiel) données (! Codage artificiel) Variable Classes Variable Classes Stade d’une tumeur cancéreuse T1, T2, T3, T4 Groupe sanguin A, O, B, AB Degrés d’obésité (selon le BMI) Grade 1, grade 2, Type de diabète Type 1, type 2, autres (MODY, …) grade 3 Type d’espèce Setosa, versicolor, virginica Type de mutation C282Y, H63D, autre Genre Masculin (0), Féminin (1) Exemple de variable ordinale Echelle de Likert Exemple de variable ordinale : Echelle CFS 33 Exemple de variable ordinale : fibrose du foie F0 – F1 – F2 – F3 – F4 Lelubre - Biostat - BA1 34 Exercice – à quel type de variable se rattachent les exemples suivants ? Type de streptocoque Présence ou absence de la mutation delta F 508 : Dosage d’un antibiotique dans le sang Périmètre crânien (NN) 35 Exercice – à quel type de variable se rattachent les exemples suivants ? Nombre de métastases Mélanome : survie selon d’un cancer du poumon le stade Performance status (PS) en oncologie Exercice – à quel type de variable se rattachent les exemples suivants ? Réponses Type de streptocoque (viridans, agalactiae, anginosus, …) – Qualitative, nominale Dosage d’un antibiotique dans le sang – Quantitative, continue Périmètre crânien des nouveau-nés – Quantitative, continue Performance status (PS) en oncologie : activités normales, affaibli, au lit, moribond – Qualitative, ordinale Présence ou absence de la mutation delta F 508 dans la mucoviscidose – Qualitative, binaire Survie selon le stade d’un mélanome – Quantitative, temporelle Nombre de métastases d’un cancer du poumon – Quantitative, discrète 37 Le type de variable détermine les types de tests statistiques utilisés Qual = variable qualitative Quant = variable quantitative Beuscart et al. Biostatistique 2009 Statistique descriptive univariée Eléments de base Représentations des distributions Tableaux synthétiques Graphiques Statistique descriptive univariée La statistique descriptive vise à fournir des indices permettant de décrire et résumer une distribution observée : – Indices de localisation (moyenne, médiane, mode, …) – Indices de dispersion (variance, SD, IQR …) Résumer va donc impliquer une perte de données au profit d’une meilleure lisibilité Elle contient également des outils de représentation graphique de ces distributions Univariée = à une dimension Principaux types de représentations graphiques https://www.data-to-viz.com/ https://www.data-to-viz.com/ Etapes générales menant à une description des données Récolte ❶ des données « Data cleaning » Etape fondamentale « garbage in, garbage out » ! Définition des variables à récolter ❷ Organisation Description ❸ des données Récolte primaire des données des données Encodage dans une base de Tableaux bruts Importation des données brutes données : Excel, … Description graphique Trier / Regrouper / Transformer Attention au codage des variables box plots, dot density plots, Changement d’origine, d’unités Attention aux erreurs d’encodage … Divisions, ajout d’une constante (ex : ou aux données manquantes Description numérique avant transfo. log),.. (« missing data ») / zéros Paramètres de position Transformations mathématiques Points et virgules, … Paramètres de dispersion Le regroupement en classes Le regroupement est nécessaire lorsque l’on étudie une variable sur un nombre important de sujets : cela permet de présenter les données plus clairement – Ex : mesure de la glycémie matinale chez 500 volontaires sains Le principe est de diviser la série statistique en intervalles appelés classes, délimitées par des bornes (mutuellement exclusives) [ ; [ que l’on définit soi-même (ou automatiquement par logiciel); on compte le nombre (= « effectif ») d’individus appartenant à chaque classe – « Mutuellement exclusives » implique qu’un individu est compté une seule fois : il ne peut entrer que dans une seule classe. – Le nombre de classes que l’on peut se permettre est proportionnel au nombre total d’individus dans l’étude. – Plusieurs types de classes; le type le plus fréquent est l’échelle par amplitude, où chaque classe possède la même « largeur ». – On considère que la répartition au sein de chaque classe est uniforme : la valeur précise correspondant à chaque individu est « perdue » et pour cet individu on ne retient que la valeur du centre (ou milieu) de la classe Exemple : soit la classe de glycémie [80 ; 90 [ mg/dl : on considère que chaque individu de cette classe a une glycémie égale à (80+90)/2 = 85 mg/dl, peu importe sa valeur initiale (qui était toutefois comprise entre 80 et 90 mg/dl). – Le choix des classes assez donc délicat : il s’accompagne d’une perte d’information, mais en revanche on obtient un gain en terme de lisibilité. Exemple de regroupement en classes Résultats ordonnés d’un dosage par ELISA (densités optiques) chez 60 individus Histogram of Optical_density 0,058 0,484 0,727 0,941 1,029 1,134 10 0,116 0,495 0,729 0,945 1,042 1,134 0,211 0,495 0,734 0,946 1,069 1,135 8 0,228 0,551 0,739 0,957 1,075 1,145 0,284 0,629 0,75 0,976 1,077 1,161 Frequency 6 0,288 0,655 0,806 0,98 1,077 1,172 4 0,289 0,669 0,816 0,999 1,078 1,203 0,37 0,67 0,824 1,001 1,127 1,215 2 0,412 0,683 0,826 1,003 1,131 1,242 0,476 0,694 0,886 1,004 1,133 1,246 0 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Optical_density Regroupement en 13 classes et comptage ❶ Représentation graphique ❷ des effectifs dans chaque classe correspondante Classe [0-0,099[ [0,1-0,199[ [0,2-0,299[ [0,3-0,399[ [0,4-0,499[ [0,5-0,599[ [0,6-0,699[ [0,7-0,799[ [0,8-0,899[ [0,9-0,999[ [1-1,099[ [1,1-1,199[ [1,2-1,299] Effectif 1 1 5 1 5 1 6 5 5 7 10 9 4 Représentation graphique d’une distribution Les graphiques ont pour objet de faire ressortir une vision synthétique du phénomène étudié, facilement appréhendable Ils illustrent une tendance générale, ils donnent une image globale des résultats de l’étude, au contraire des tableaux statistiques qui, bien que précis, fourmillent de données et les rendent peu compréhensibles a priori Tout graphique est le résultat d’un choix par son concepteur, qui doit trouver le bon équilibre entre une nécessaire perte d’information (pour plus de clarté) et la rigueur scientifique Un graphique doit être – Simple (éviter trop de couleurs ou de barres, graphes 3D, …) – Compréhensible par lui-même – Légendé (titre, axes, unités) – Honnête … (! Manipulations ! Échelles artificiellement élargies, …) 46 1. Distribution d’une variable qualitative 1.1. Principe – un exemple : couleur des yeux chez n=45 étudiants Tableau des effectifs et des fréquences Soit la variable X, avec l’ensemble de ses modalités (x1, x2, …, xk) Soit un échantillon de taille n On compte le nombre de personnes possédant la ni fi = ni/n Dans cet échantillon, soit ni le nombre d’individus qui possèdent la valeur xi modalité de la variable et on reporte ces effectifs (= comptage) sur un tableau des effectifs et fréquences On définit: Effectif Fréquence Modalité (i) Effectif (absolu) de xi: le nombre d’individus ni possédant cette valeur xi (absolu) (relative) Brun 23 23/45 = 0,51 (! parfois dénommé « fréquence absolue ») Bleu 12 0,27 Fréquence (relative) de xi : le pourcentage, la proportion d’individus Vert 7 0,16 possédant la valeur xi (par rapport à l’ensemble des individus); la Noir 2 0,04 fréquence relative est nommée fi (fi= ni/n); la somme des fréquences Gris 1 0,02 relatives vaut 1 ou 100% Total 45 1,00 La distribution des effectifs ou des fréquences de la variable X est l’ensemble des couples (xi ,ni) (pour la distribution des effectifs) ou (xi ,fi ) (pour la distribution des fréquences) représentés sur un graphique: diagramme en barres (ou en colonnes ou en bâtons) Σni=n Σfi=1 « pie chart » (= tarte) 1. Distribution d’une variable qualitative 1.2. Diagramme en bâtons ou en barres Diagramme en barres (« bar chart ») – Présente les effectifs (ou les fréquences) de chaque modalité de la variable qualitative étudiée Diagramme en barres de la couleur – Les colonnes sont séparées par un espace (barres disjointes) pour faire la différence avec un histogramme (variable des yeux sur une cohorte de 45 individus quantitative continue); largeur fixe – Peuvent être horizontaux ou verticaux 25 20 15 10 5 0 Brun Bleu Vert Noir Gris Exemples de diagrammes en barres (bar charts) Horizontal Vertical Diagrammes en barres : pièges et mauvais usages Attention à l’axe où se situent les valeurs numériques. Une valeur de base différente de zéro peut induire le lecteur en erreur en surestimant artificiellement une différence parfois mineure entre les barres comparées. https://chartio.com Lelubre - Biostat - BA1 50 Diagrammes en barres : pièges et mauvais usages Eviter les extrémités arrondies ou les représentations en 3D Lorsque cela est possible, préférer le tri des valeurs numériques par ordre croisssant ou décroissant 1. Distribution d’une variable qualitative 1.3. Diagramme en camembert (« pie chart ») Diagramme en camembert : Divisé en secteurs (portions) – Chaque secteur représente une modalité de la variable; surface proportionnelle à l’effectif de la classe correspondante – Le plus grand secteur commence à midi et on avance dans le sens des aiguilles d’une montre par ordre décroissant Peu précis => réservé pour montrer un effet relatif dans une distribution (1 ou 2 secteurs prédominants par rapport au reste) – A éviter lorsque le nombre de classes est élevé 2. Distribution d’une variable quantitative Faible nombre Grand nombre d’observations Faible nombre de modalités par d’observations Représentation en points rapport au nombre de sujets et de modalités Diagramme en barres Histogramme Exemple : nombre de frères et sœurs dans un groupe de 45 personnes : 8 modalités pour 45 sujets Exemple : taille des individus dans un échantillon de 15 étudiants Modalité Effectif Fréquence Ce type de représentation permet aussi de mettre 0 7 0,16 en évidence graphiquement les valeurs dites 1 14 0,31 extrêmes ou aberrantes (anglais : outliers). 2 11 0,24 3 7 0,16 4 3 0,07 NB : Les outliers correspondent soit à des 5 1 0,02 erreurs d’encodage lors de la collecte des 6 1 0,02 données, soit à une vraie valeur correspondant à 7 1 0,02 un comportement biologique inhabituel Total 45 1,00 2. Distribution d’une variable quantitative Classe (litres) Effectifs [2,5 – 3[ 3 Histogramme : exemple [3 - 3,5[ 9 [3,5 - 4,0[ 14 Tableau brut des données (en litres) [4,0 - 4,5[ 15 4,47 4,47 3,48 5 3,42 3,78 [4,5 – 5[ 10 3,1 3,57 4,2 4,5 3,6 3,75 [5 - 5,5[ 6 4,5 2,85 3,7 4,2 3,2 4,05 4,9 5,1 5,3 4,16 4,56 3,54 Total 57 3,5 5,2 4,71 3,7 4,78 4,14 4,14 4,8 4,1 3,83 3,6 2,98 4,32 5,1 4,3 3,9 3,96 3,54 4,8 4,3 3,39 4,47 3,19 3,1 4,7 3,69 3,3 2,85 4,68 4,06 4,44 5,43 3,04 2. Distribution d’une variable quantitative Histogramme L’histogramme met en relation, sous la forme de rectangles juxtaposés, le nombre de sujets (ou la fréquence) « tombant » dans une classe bien précise. Structure générale d’un tableau permettant de créer un histogramme : Autre exemple d’histogramme : glycémie à jeun chez 1000 volontaires sains Lelubre - Biostat - BA1 56 Autre exemple d’histogramme : Pression artérielle systolique et diastolique mesurés sur 941 sujets Lelubre - Biostat - BA1 57 Choix du nombre de classes dans un histogramme Pas toujours facile à définir, mais influe sur la représentation graphique de la distribution ! Le choix du nombre de classes dépend : – Du nombre total d’observations : plus le nombres est élevé, plus on peut se « permettre » un nombre élevé de classes (cf formules mathématiques) – Du bon sens.. (bornes construites de façon « logique ») – Equilibre à trouver entre un nombre suffisamment grand que pour représenter correctement la répartition, mais pas trop élevé afin qu’il reste assez de sujets dans chaque classe ! Exemple de la répartition des mesures de VEMS en différents histogrammes k = 3 classes k = 8 classes k=14 classes 25 12 7 10 6 20 5 8 15 4 Count Count Count 6 3 10 4 2 5 2 1 0 0 0 2.4. Polygone de fréquence Exemple de polygone de fréquence Relevé de cas d’une épidémie La représentation en histogramme semble indiquer une évolution de la variable par bonds, par marches, à chaque changement de classe – Impression de discontinuité Pour atténuer cette impression, on peut tenter de lisser le graphique en créant un polygone de fréquence. Construction du polygone de fréquence On relie, par une droite, les points dont les coordonnées sont (milieu de classe i; effectif ou fréquence de la classe i). On ferme le polygone aux deux extrémités sur l’axe des abscisses (en rajoutant une classe à chaque extrémité, de fréquence nulle). Représentations graphiques Autres cas « Dot plot » « Radar plot » Pyramide des âges Colonnes groupées « Stacked columns » Risque cardiovasculaire : « SCORE » « Dot plot » Représentation de chaque individu sur le graphique, matérialisé par un point ou un cercle. Permet d’apprécier la distribution des individus d’une manière plus fine que de simples bar plots. Cours de Statistique 61 II « Radar plot » = Diagramme de Kiviat, diagramme en radar, en étoile, ou en toile d'araignée (« spider plot ») Permet de représenter sur un même graphique le « profil » d’un ou de plusieurs sujets, à savoir les valeurs prises par plusieurs variables quantitatives (>3) Les surfaces peuvent être calculées et comparées aussi Exemple : comparaison d’une série de variables à l’entrée et à la sortie de l’hôpital chez des patients gériatriques Histogrammes ou densités multiples Le « ridgeline plot » Pyramide des âges Représentation graphique de la composition d’une population selon le sexe et l’âge – Formée de 2 histogrammes adossés l’un à l’autre (les hommes à gauche, les femmes à droite) – Les effectifs sont portés horizontalement et les âges verticalement Les effectifs (par sexe et âge) dépendent des interactions passées de la fécondité, de la mortalité et des migrations Image synthétique du passé, du présent et de l’avenir d’une population Permet notamment de comparer la « jeunesse » relative de deux ou plusieurs populations 64 Colonnes groupées (« clustered ») Deux variables qualitatives considérées en même temps Exemple : probabilité de décès après admission aux soins intensifs pour un infarctus du myocarde Probabilité mise en ordonnée (axe Y) Cette probabilité est exprimée en fonction de deux variables qualitatives : – Âge (5 catégories) – Au sein de chaque tranche d’âge, ventilation par homme / femme Colonnes ou barres segmentées (« stacked bars ») 66 Hutchinson et al. Nejm 2016 Lelubre - Biostat - BA1 Colonnes ou barres segmentées (« stacked bars ») Effets secondaires associés à 2 vaccins mRNA dans la Covid-19 Lelubre - Biostat - BA1 67 Intégration de multiples variables quantitatives / qualitatives sur un même graphique Exemple de la modélisation du risque cardiovasculaire avec le modèle SCORE(2), qui fait intervenir de multiples variables : – Sexe – Statut tabagique – Age – Taux de cholestérol – Pression artérielle Permet d’étudier l’influence de ces facteurs sur le risque de mortalité à 10 ans par maladie cardiovasculaire, qui est exprimé sous forme d’un chiffre associé à une couleur.

Use Quizgecko on...
Browser
Browser