Cours de BIOSTA-S3 - M234 Biostatistique 2024/25 PDF
Document Details
Uploaded by Deleted User
Université Moulay Ismaïl
2024
Tags
Summary
This document is a course on biostatistics for a third-year undergraduate program at the University Moulay Ismail. It covers descriptive statistics, probability, estimation, and inference. The course material also includes the concept of variables, their types and their relation to biology.
Full Transcript
M234 : Biostatistique S3 Tronc Commun National-Biosciences AU : 2024/25 1 Les statistiques et la statistique Dénombrement/Comptage Méthodes/Règles On attribue à l'histoire de cette science à la date de...
M234 : Biostatistique S3 Tronc Commun National-Biosciences AU : 2024/25 1 Les statistiques et la statistique Dénombrement/Comptage Méthodes/Règles On attribue à l'histoire de cette science à la date de commencement de 1746, bien que l'interprétation du terme « statistique » a changé au cours du temps. → Aux temps plus anciens (Paléolithique العصر الحجري القديم: 30000 ans ~ av. J.-C; Chinois: 2238 av. J.-C; Egyptiens: 1700 av. J.-C,...), cette science ne consistait qu'à la collection d'informations des États, d'où l'étymologie du nom, de l’Allemand ACHENWALL, qui aurait créé le mot Statistik, dérivé de l'italien statista ("Homme d'État"). → Plus tard, cette définition est étendue à tout type d'information collectée et, encore plus tard, les sciences statistiques incluent l'analyse et l'interprétation de ces données. → En termes modernes, les statistiques incluent les ensembles de données, telles celles de la comptabilité nationale et les registres de températures, ainsi que le travail d'analyse, lequel requiert les méthodes de l'inférence statistique. Dans le domaine de la santé, l'utilisation des statistiques est assez tardive, puisqu'il faut attendre le XVIIIème siècle pour voir apparaître les premières tables de mortalité. Le développement de la méthode statistique est quant à lui relativement récent, et ne débute véritablement que dans le courant du XVIIIème siècle. → Le développement des mathématiques et des probabilités (PASCAL, FERMAT, LAPLACE, BAYES,…) permet de dégager des règles pour le traitement des données. → Parallèlement, les domaines ayant recours aux méthodes statistiques se multiplient : l'agronomie, puis de la biologie, pour gagner peu à peu l'économie, l'industrie, et le domaine de la santé (PEARSON et FISHER). → Au XXème siècle, le principal déterminant du développement de la statistique a été sans conteste l'apparition et la diffusion de l'outil informatique, ce qui a permis le développement de nouveaux outils statistiques qu'il était peu envisageable d'utiliser « à la main », mais a également entraîné une certaine démocratisation… → De nos jours, les statistiques ont gagné tous les champs de la société…. SCIENCE DU VIVANT BIO → Grec : bios CNPN Objectifs du module : M234 « Biostatistique » Les formations mathématiques reçues en S1 et S2 sont largement suffisantes pour aborder le cours de stat. Prérequis pédagogiques ✓ Initier les étudiants à l'utilisation des statistiques en biologie. ✓ Apprendra à raisonner avant d'appliquer le modèle statistique adapté à sa problématique. ✓ Familiariser l'étudiant aux outils statistiques en insistant davantage sur le mode de raisonnement statistique que sur les aspects mathématiques. ✓ Le cours doit apprendre à l’étudiant à choisir une démarche statistique rationnelle en tenant compte des risques associés à une décision. Compétences à acquérir Il doit donner aux étudiants les compétences suffisantes en statistique pour la suite de leurs cursus à l’université, ainsi que pour leur parcours extérieur et être capable de présenter des données brutes sous forme synthétiques (Tableaux; graphiques ou paramètres statistiques) et savoir comment peut-on généraliser les paramètres calculés au niveau d’un ou plusieurs échantillons sur la population statistique. Partie I Statistique Descriptive Partie II Probabilité & Distributions Théoriques Partie III Théorie statistique de l’estimation Partie IV Statistique Inférentielle Partie I Statistique Descriptive → Analyse déductive des données Représentent l’ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données nombreuses et variées 1. Typologie des variables 2. Analyse univariée (1 dimension) : Indicateurs (position, dispersion & forme), Mesures de concentration (Degré et Indice de de concentration) 3. Analyse bivariée (2 dimensions) : Corrélation entre deux variables quantitatives, Analyse deux variables quantitatives par régression linéaire 4. Représentation graphique 1. Typologie des variables Une variable = une quantité ou qualité susceptible de fluctuer ou de varier. Dans certains cas, ces variables utilisées ne peuvent pas être mesurées de manière « objective » → On mobilise plutôt des variables latentes ou construites. Exemple : image de marque, motivation… L’ensemble sur lequel porte l ’étude s ’appelle Population. On effectue généralement des mesures sur les individus (= unités statistiques) qui composent cette population + 3éme type de variables : Temporelles : Dates, Heures… =Série non groupée =Discontinues=série groupée →Mesurable sur une échelle →Comptable (valeurs isolées) Indicateurs de position, de dispersion, de forme… Fréquence, Répartition Proportionnelle (%, ‰…) Partie I Statistique Descriptive → Analyse déductive des données Représentent l’ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données nombreuses et variées 1. Typologie des variables 2. Analyse univariée (1 dimension) : Indicateurs (position, dispersion & forme), Mesures de concentration (Degré et Indice de de concentration) 3. Analyse bivariée (2 dimensions) : Corrélation entre deux variables quantitatives, Analyse deux variables quantitatives par régression linéaire 4. Représentation graphique 2. Analyse univariée 2.1. Indicateurs 3 Indicateurs caractérisent la distribution d’une série statistique quantitative: Les paramètres de position : Moyenne « arithmétique », Fractile (Médiane, quartile, déciles, centiles,..), Min, Max, Mode Les paramètres de dispersion : Variance, Écart-type, Coefficient de Variance, Étendue (Amplitude), Ecart Interquartiles, Interquartile relatif, Intervalle de Kelley, Interdécile relatif es paramètres de forme : Aplatissement (Kurtosis), Asymétrie (Skewness) Paramètres de position → Moyenne arithmétique Cette moyenne arithmétique est la plus ancienne méthode employée pour caractériser un ensemble de données et indiquer une tendance centrale. Elle représente le centre de gravité de la distribution. Soit x1, x2, … xi;….Xn Si les données sont organisées en classes (variable continue) de centre ci, on remplacera xi par ci Inconvénient : ce paramètre est très sensible aux valeurs extrêmes de la série Il existe d’autres types de moyennes : Moyenne géométrique d'une série de valeurs positives est la racine nième du produit des n valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique. Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses. Moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés. → Moyenne arithmétique pondérée Il faut tenir compte des coefficients Matière Coefficient note notes coefficientées Physique 4 12 4x 12= 48 Chimie 4 8 4x 8 = 32 Philosophie 1 5 1 x5 = 5 Histoire/Géographi 1 14 1 x14 = 14 e Maths 10 9,5 10 x9,5 = 95 Total des coefficients : 4 +4 + 1 + 1 + 10 = 20 Total des notes coefficients : 194 Moyenne pondérée : = 9,7 soit la note est de 9,7 / 20 → Fractile La médiane est la valeur de la série qui partage la distribution en 2 sous-ensembles d’égal effectif. Le quartile est la valeur de la série qui partage la distribution en 4 sous-ensembles d’égal effectif. Le centile (ou percentile) est la valeur de la série qui partage la distribution en 100 sous- ensembles d’égal effectif. …………………… Q1=D2.5=C25 Q3=D7.5=P75 Me=Q2=D5=C50 Min=Qo=Do=Co Max=Q4=D10=C100 Mode ???? → Mode = la valeur dominante Correspond à la valeur la plus fréquente. xi correspondant au ni (ou fi) maximum. Il peut y avoir un ou plusieurs modes. 10, 9, 12, 11, 10, 8, 14 ,11 ,9 ,16 ,5 ,12 ,10 ,11 ,10 ,13 Moyenne = 10,7 ; Médiane = 10,5 ; Mode = 10 MODULO = MOD = % 10, 9, 12, 11, 10, 8, 14 ,11 ,9 ,16 ,5 ,12 ,10 ,11 ,10 ,13 Moyenne = 10,7 ; Médiane = 10,5 ; Mode = 10 2. Analyse univariée 2. 2. Indicateurs 3 Indicateurs caractérisent la distribution d’une série statistique quantitative: Les paramètres de position : Moyenne « arithmétique », Fractile (Médiane, quartile, déciles, centiles...), Min, Max, Mode Les paramètres de dispersion : Variance, Écart-type, Coefficient de Variance, Étendue (Amplitude), Ecart Interquartiles, Interquartile relatif, Intervalle de Kelley, Interdécile relatif es paramètres de forme : Aplatissement (Kurtosis), Asymétrie (Skewness) Paramètres de dispersion Les distributions statistiques peuvent, tout en ayant des caractéristiques de tendance centrale voisines, être très différentes. Il est donc nécessaire de mesurer la dispersion des valeurs autour des tendances centrales. → Variance noté V(X) ou VAR(X) : Il mesure la dispersion de part et d'autre de la moyenne. C’est la moyenne de la somme carrés des écarts à la moyenne → Écart type noté σ (X)=Ecart moyen quadratique=Standard Déviation "SD" = la racine carré de la variance et donc toujours positif ou nul. Il est de même unité de la variable Plus σ est grand, plus les valeurs du caractère sont dispersées autour de la moyenne Plus σ est petit, plus les valeurs du caractère sont groupées autour de la moyenne → Coefficient de Variation noté C.V=Ecart type relatif= RSD (Relative Standard Deviation) c’est le rapport entre l’écart type et la moyenne, il permet de comparer le taux de dispersion entre distributions même qui ne possèdent pas la même unité Plus le coefficient de variation est petit, plus la série est homogène. D’une manière générale, la population étudiée est considérée Homogène lorsque le CV < 15% Dispersé (hétérogène) lorsque CV >15% C.V est sans unité → comparer 2 séries de données d'unités différentes, l'utilisation de ce critère est plus judicieuse. Récolte d’abricots dans plusieurs parcelles homogènes d’une ferme biologique Déterminer la récolte moyenne de cette ferme Effective et déterminer les principaux indicateurs de la xx nni i (x-54,9) ( x-54,9)2 dispersion autour de la moyenne???? 54,9 Kg Total 100 3808,82 VAR(X) = 1 ( x − )2 N i Etendue, Q1, Médiane, Mode ???? Récolte d’abricots dans plusieurs parcelles homogènes d’une ferme biologique simple pondéré VAR(X) = 1 (x − x)2 N i x ni (x-54,9) ( x-54,9)2 ni ( x-54,9)2 ni (x − x ) 1 2 VAR(X) = N i récolte moyenne est Total 100 3808,82 54,90 ± 6,17 Kg σ ² = 3808,82 / 100 = 38,09 Kg2 C.V. = 6,17 /54,9=11,3% → σ = 6.17 Kg → →Etendue =Amplitude : Evaluation de l’extrême (Min & Max) Ecart entre la plus grande (max) et la plus petite (min) des observations Ce paramètre est totalement lié à ces 2 valeurs extrêmes et donc peu fiable. Néanmoins, il donne une première idée de la dispersion des observations. → Ecart interquartile : Q3 – Q1 C’est un indicateur de dispersion. Il mesure l’écart entre le 3ème et 1er quartile. Cet intervalle correspond à 50% des observations. situées autour de la médiane. Cette mesure n’est pas sensible aux valeurs éloignées. Elle a l’avantage par rapport à celui de l’étendue d’écarter les valeurs extrêmes, souvent sans signification. → Interquartile relatif = Ecart Semi-interquartile : Q3 – Q1 / Q2 → Intervalle de Kelley = D9-D1 : mesure l’écart pour 80% des observations → Interdécile relatif = D9 – D1/ D5 3 Indicateurs caractérisent la distribution d’une série statistique quantitative: Les paramètres de position : Moyenne « arithmétique », Médiane, Mode, Fractile, Min, Max Les paramètres de dispersion : Variance, Écart-type, Coefficient de Variance, Étendue (Amplitude), Ecart Interquartiles, Interquartile relatif, Intervalle de Kelley, Interdécile relatif Les paramètres de forme : Aplatissement (Kurtosis), Asymétrie (Skewness) Paramètres de forme En complément de l’étude de la position et de la dispersion, il est intéressant de repérer la forme (déjà mise en évidence graphiquement) par de mesures de son asymétrie (skewness) et de son aplatissement (kurtosis). → Coefficient d’asymétrie (skewness) x Sk → Coefficient aplatissement (kurtosis) =Courbure x k 2.2. Mesures de concentration Degré de concentration La concentration se mesure par la différence entre l’écart médiane et médiale, noté ∆𝑀 rapporté à l’étendue de la distribution Plus ∆𝑀 est élevé par rapport à l’étendue, plus la distribution est concentrée. Pour ce calcul il faut connaître la médiale NB. La médiale d'une variable aléatoire est la valeur qui partage la masse d'une variable en deux parties de même poids. Si X est une variable aléatoire de densité f, la médiale est la valeur m telle que :. Indice de concentation (De Gini) Noté IG, l surface comprise entre la bissectrice et la courbe de concentration (surface de concentration) IG est compris entre 0 et 1 les valeurs d’une distribution égalitaire et une distribution intégralement inégalitaire Partie I Statistique Descriptive → Analyse déductive des données Représentent l’ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données nombreuses et variées 1. Typologie des variables 2. Analyse univariée (1 dimension) : Indicateurs (position, dispersion & forme), Mesures de concentration (Degré et Indice de de concentration) 3. Analyse bivariée (2 dimensions) : Corrélation entre deux variables quantitatives, Analyse deux variables quantitatives par régression linéaire 4. Représentation graphique 3. Analyse bivariée 3.1. Corrélation entre deux variables quantitatives Le coefficient de corrélation mesure l’association linéaire entre X et Y Il fait jouer un rôle symétrique à X et Y Il reste identique si on change d’unité ou d’origine r varie de -1 à + 1 : Corrélation positive (0 < r < 1) : relation proportionnelle Corrélation négative ( 1 < r < 0) : relation inversement proportionnelle si r = 0 pas de liaison → 2 variables indépendantes si r = 1 (ou -1) → 2 variables liées Déterminer le coefficient de corrélation r de Pearson de ces 2 séries statistiques ? Xi Yi Xi-X Yi-Y (Xi-X) * (Yi-Y) ( Xi-X)2 (Yi-Y)2 Ne pas confondre : Régression, Corrélation & Causalité →La régression recouvre plusieurs méthodes d’analyse statistique permettant d’approcher une variable (Y dépendante=a expliquer) à partir d’autres qui lui sont corrélées (X indépendantes=explicative) → la liaison linéaire ou autre entre ces variables Y=F(XI) →La corrélation indique la nature et le degré de linéarité entre ces variables. la corrélation entre X et Y est la même que la corrélation entre Y et X. Il n’est pas important de savoir quelle est la variable indépendante et celle(s) dépendante(s). Ainsi l’analyse de régression fournit une fonction entière (une droite par exemple) alors que l’analyse de corrélation fournit un simple un indice qui renseigne sur l’intensité et le sens avec laquelle 2 variables évoluent ensemble. Ces 2 techniques sont donc complémentaires →L’analyse causale enfin va plus loin en précisant le sens de la relation, le chemin de la cause à l’effet. X est à l’origine de Y ou pas X→Y ??? 3.2. Analyse deux variables quantitatives par régression linéaire Dans le cas d’une régression linéaire, on va chercher à utiliser une technique d'estimation choisie, une variable dépendante et une variable explicative pour former une équation linéaire estimant les valeurs de la variable dépendante → y=ax+b Fonction affine où a et b ( ) sont des constantes. Ce nombre a est appelé coefficient directeur de la fonction affine f. Ce nombre b est appelé ordonnée à l'origine de la fonction affine Concentration g/l g/l 0.7 g/l → Solution Inconnue Partie I Statistique Descriptive → Analyse déductive des données Représentent l’ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données nombreuses et variées 1. Typologie des variables 2. Analyse univariée (1 dimension) : Indicateurs (position, dispersion & forme), Mesures de concentration (Degré et Indice de de concentration) 3. Analyse bivariée (2 dimensions) : Corrélation entre deux variables quantitatives, Analyse deux variables quantitatives par régression linéaire 4. Représentation graphique 4. Représentation graphique Le choix d'une représentation graphique dépend étroitement de la nature et du nombre de variables à visualiser, ainsi que de l'objectif précis que l'on souhaite atteindre avec ces données. Chaque type de graphique est adapté à une situation spécifique et permet de mettre en évidence différents aspects d'un ensemble de donnée: 4.1. Variables quantitatives Univarié →Variable discrète : Diagramme à bâtons →Variable continue : Histogramme Les valeurs discrètes xi prises par les variables Il est composé de barres verticales adjacentes, sont placées sur l'axe des x, et les effectifs (ou les où la largeur de chaque barre représente une fréquences) sur l'axe des Y. classe d'intervalle de la variable, et la hauteur La hauteur du bâton est proportionnelle à de la barre correspond au nombre l'effectif (ou les fréquences). d'observations (ou à la fréquence) qui tombent NB. Ce diagramme peut représenter une série dans cette classe. qualitative, qui est normalement représenté par un Diagramme à bande Discrètes→ Diagramme à bâtons Continues → Histogramme →Diagramme à moustache C'est une représentation graphique très synthétique, qui permet de visualiser rapidement la tendance centrale et la dispersion des valeurs d’une variable continue dans des secteurs où les données peuvent le plus souvent être modélisées en utilisant une loi normale Ce diagramme est utilisé principalement pour : o comparer un même caractère dans 2 populations ou plus de tailles différentes (bivariée). o détecter la présence de données exceptionnelles. Graphique → Il s'agit de tracer un rectangle allant du Q1 au Q3 et il est coupé par la médiane (Q2). NB. On pourra faire un box plot avec des déciles au lieu des quartiles Bivarié Représentation graphiquement de la relation entre deux variables mesurées. Un tel graphique vous permet de voir en un coup d'œil le degré et le modèle de relation entre les 2 variables. →Diagramme de dispersion (nuage de points) →Histogramme utilisée pour déterminer si une telle utilisé pour visualiser les tableaux croisés de corrélation existe en cartographiant les points valeurs de deux variables. Ils peuvent être sur le graphique. considérés comme une conjonction de deux histogrammes simples (c'est-à-dire univariés) →Diagramme à moustache : 4.2. Variables qualitatives A chaque modalité il est associé un effectif ni (ou des fréquences ni/N) → Diagramme en barres = Diagramme à Bande=Diagramme en bandeaux = Diagramme en Tuyaux d’orgues → Diagramme circulaire = Diagramme en secteurs =Diagramme en camembert » = pie-chart L'effectif total est représenté par un disque. Chaque modalité est représentée par un secteur circulaire dont la surface (pratiquement : l'angle au centre) est proportionnelle à l'effectif correspondant. William Playfair dans The Statistical Breviary (1801)