Cours de Bio-statistique de 1ere année Médecine PDF
Document Details
Uploaded by ReceptiveComputerArt
Université d'Alger 1 - Faculté de Médecine
2024
M.Z. Boutoûis
Tags
Related
Summary
These lecture notes are for a course in biostatistics for medical students at the Université d'Alger1. The content covers descriptive statistics including data representations, central tendency and position, and dispersion.
Full Transcript
Université d’Alger1 - Faculté de Médecine Cours de Bio-statistique de 1ere année Médecine Année Universitaire 2023-2024 M.Z. BOUTOUIS Chapitre 1 : Statistiques descriptive Partie 1 : Statistique descriptive univariée Notions de bases et définitions Rep...
Université d’Alger1 - Faculté de Médecine Cours de Bio-statistique de 1ere année Médecine Année Universitaire 2023-2024 M.Z. BOUTOUIS Chapitre 1 : Statistiques descriptive Partie 1 : Statistique descriptive univariée Notions de bases et définitions Représentation graphique des données Caractère qualitative (Diagramme circulaire, Tuyau d’orgue) Caractère quantitative Caractère discret : Diagramme en bâton Caractère continu : Histogramme. Caractéristique de tendance centrale et de position Moyenne Médiane Mode Les quantiles Caractéristique de dispersion Etendu Variance Coefficient de variation Ecart interquartile, Ecart inter-décile, Ecart inter-centile Intervalle interquartile. Partie 2 : Statistique descriptive bivariée Tableaux statistiques Représentation graphique des données Mesure de dépendance Covariance Coefficient de corrélation. Chapitre 1 : Statistique descriptive 1 Introduction La statistique est la science de collecte, analyse et traitement des données. Elle fournit différents outils et techniques qui aide à la prise de décision. La statistique couvre un large domaine d'applications: épidémiologie, biologie, économie, agronomie, fiance, psychologie, etc. La biostatistique est la branche des statistiques appliquées qui applique des méthodes statistiques aux problèmes médicaux et biologiques. La statistique est largement utilisée en médecine et plus généralement dans les sciences biomédicales. Elle facilite la prise de décision et permet de répondre à de nombreuses questions dans ce domaine, telles que par exemple: - Quel est le risque de complication d’un état pathologique, et quel est le risque d’un traitement ? - Elle fournit les outils d’aide à la décision thérapeutique et diagnostique. Par exemple chercher à savoir : « est-ce qu’un homme atteint d’un cancer de la prostate doit subir une prostatectomie radicale, une radiothérapie ou ne rien faire ? » - Pour faire de l’optimisation thérapeutique, choisir le traitement le mieux adapté à un patient donné (choix du médicament, posologie, etc.). - Dans les essais cliniques pour tester l’efficacité et la sécurité d’un médicament avant d’autoriser son utilisation. Par exemple : voir si l’incidence des effets indésirables est-elle supérieure ou inférieure à celle des effets indésirables graves chez les patients sous traitement standard. Le cours a pour objectif d'introduire les étudiants aux notions de bases théoriques des principales techniques d'analyse statistique descriptive et inférentielle. Contenu de l’enseignement N° Intitulé du chapitre 1 Statistique Descriptive 2 Analyse combinatoire 3 Théorie des probabilités 4 Statistique inférentielle 5 Régression linéaire simple Chapitre 1 : Statistique descriptive 2 Partie 1 : Statistique descriptive uni-variée Objectif Ce chapitre a pour objectif de présenter les principales techniques de l’analyse descriptive des données. Il s’agit d’une étape incontournable dans n’importe quelle étude statistique. La statistique descriptive consiste en un ensemble de méthodes qui nous permet de synthétiser et de décrire les caractéristiques des données (la série statistique)1 que l’on veut analyser en un ensemble d’indicateurs de tendance centrale, de position et de dispersion, ou sous forme de représentation graphique. 1. Notions de base La statistique est une branche des mathématiques. Les statistiques : ensemble des données relatives à un groupe d’individus ou d’unités. 1.1. Population, échantillon et unité statistique Une population fait référence à l’ensemble de tous les individus, objets, animaux,…, sur lesquels on fait des observations statistiques, et que l’on note par Ω. Le nombre d’éléments de cette population (Ω) est appelé le cardinal de Ω, noté: Card (Ω) = nombre d’éléments de Ω = N. Unité statistique est toute individu/objet qui compose une population statistique, que l’on note ω. Un échantillon est un sous-ensemble de la population, qui doit être tiré au hasard et représentatif de la population. Exemples 1. Si on s’intéresse à la moyenne du BAC obtenue par les étudiants de 1ere année médecine à l’université d’Alger 1. Ω = tous les étudiants de 1ere année médecine de l’université d’Alger 1. L’unité statistique (individu): ω = un étudiant en 1ere année médecine de l’université d’Alger 1. Echantillon : Si par exemple, dans notre étude statistique on ne s’intéresse qu’aux étudiants qui ont un âge de moins de 18 ans, on dit que notre échantillon est constitué seulement des étudiants qui ont moins de 18 ans. 2. Sur l’ensemble des enfants atteins d’une Leucémie dans l’hôpital d’une ville X, le médecin traitant effectue des prélèvements sanguins afin de mesurer la thrombopénie, et d’ajuster la posologie de la chimiothérapie. Ω = tous les enfants atteints d’une Leucémie dans l’hôpital de la ville X. ω = un enfant atteint d’une Leucémie dans l’hôpital de la ville X. 1 Relevant d’un échantillon ou d’une population Chapitre 1 : Statistique descriptive 3 1.2 Caractères La statistique étudie les caractéristiques des individus. 1.2.1. Définition Un caractère (ou variable statistique) étant une variable qui caractérise les individus de cette population. On appelle une variable statistique (caractère X) toute application X : Ω → C. L’ensemble C est dit : ensemble des valeurs du caractère X (c’est ce qui est mesuré ou observé sur les individus). Les modalités du caractère étant les valeurs prises par cette variable. 1.2.2. Types de caractères On distingue deux types de caractères ou de variable statistique: Caractères qualitatif (variable statistique qualitative) : il s’agit des variables statistiques dont ses modalités ne sont pas mesurables. On distingue deux types de caractère qualitatif (nominal et ordinal). Nominal : lorsque l’ordre de classement de modalité n’est pas important. Exemples - Le groupe sanguin (A, B, AB et O). - La filière du BAC (Science, Math, Math-technique, Gestion et économie, Langues étrangères et philosophie). Ordinale : l’ordre dans le classement des modalités est important. Exemples - Les différents stades d’évolution d’un cancer : en fonction de l’envahissement de la muqueuse, la gravité est exprimée par un ordre croissant, il s’agit d’une hiérarchie dans la gravité de la maladie : du stade A au B, et puis C de pour un cancer du côlon. De 0, 1 à 4 pour un cancer du poumon non à petites cellules2. - La mention du BAC (assez-bien, bien, très-bien et excellent). Caractères quantitatif (variable statistique quantitative) Il s’agit des variables qui sont quantifiées. Plus généralement c’est des variables qui sont mesurables. L’ensemble des valeurs est représenté par des chiffres. Pour les variables statistiques quantitatives, on distingue deux types : Caractère discret et caractère continu. Les caractères discrets : Les caractères discrets sont ceux dont le nombre de modalités est fini ou dénombrable (la variable ne peut prendre qu’une seule valeur d’un entier. Exemples : le nombre d’enfant par ménage, le nombre de boite de médicament défectueux dans un lot. 2 Remarque : le passage d’un stade à un autre, ne veut pas dire, par exemple que le stade 2 est deux fois plus grave que le stade 1. Les chiffres sont assignés aux différents stades seulement à titre indicatif exprimant le passage d’un stade à un autre plus grave. Chapitre 1 : Statistique descriptive 4 Les caractères continus : sont ceux qui ont une infinité de modalités (elle prend n’importe quelle valeur dans son domaine de définition : un nombre infini). Exemples : Âge, la taille, la pression artérielle, taux de glycémie. 1.3 Effectifs et fréquences 1.3.1 L’effectif L’effectif total que l’on note N, est le nombre d’individus appartenant à la population statistique étudiée. L’effectif d’une modalité 𝑥i d’un caractère x est le nombre d’individus présentant cette modalité. L’effectif correspondant à la ième modalité du caractère 𝑥 est noté 𝒏𝐢. Exemple : l’âge des étudiants de la section A de 1ere année médecine. Tableau 1 : l’âge des étudiants de de la section A en 1ere année médecine. 𝑥 : Age Effectif (𝑛i ) 1ere modalité 𝑥1 = 17 𝑛1 = 45 𝑥2 = 18 𝑛2 = 55 Les effectifs de chaque modalité Modalités 𝑥i 𝑥3 = 19 𝑛3 = 42 𝑥4 = 20 𝑛4 = 8 Total N=150 L’effectif total On note k, le nombre de modalité de la variable statistique étudiée. 𝒏𝒊 est le nombre d’individus dont la valeur du caractère est inférieur ou égale à 𝑥𝑖. L’effectif total pour k modalité est donné par: N = ∑𝑘𝑖=1 𝑛𝑖 = 𝑛1 + 𝑛2 + 𝑛3 + …. +𝑛𝑘. Notation Pour chaque valeur 𝑥𝑖 , on pose par définition 𝑛𝑖 = Card {ω ∈ Ω : X(ω) = 𝑥𝑖 }. 𝑛𝑖 : le nombre d’individus qui ont le même 𝑥𝑖 , ça s’appelle effectif de 𝑥𝑖. 1.3.2 La fréquence La fréquence d’une modalité notée (𝑓i ) est la proportion d’individus de la population totale qui présentent cette modalité : elle est obtenue en divisant l’effectif de cette modalité (𝑛i ) du caractère par l’effectif total N.. 𝑛𝑖 𝑓𝑖 = 𝑁 Remarque On peut remplacer 𝑓i par 𝑓i × 100 qui représente le pourcentage de la modalité 𝑥𝑖 dans la population globale. Selon l’exemple précédent, on peut dire que 30% des étudiants de la section A de 1ere année médecine ont un âge de 17 ans. Chapitre 1 : Statistique descriptive 5 1.3.3 Les fréquences relatives cumulées croissants La fréquence relative cumulée que l’on note 𝐹𝑖 est la somme des fréquences relatives correspondantes aux valeurs de la variable statistique inférieure à 𝑥𝑖+1. Elle nous indique la proportion des individus pour lesquels la variable statistique est inférieure à 𝑥𝑖+1. 𝐹1 = 𝑓1 𝐹2 = 𝑓1 + 𝑓2 𝐹3 = 𝑓1 + 𝑓2 + 𝑓3.. 𝐹𝑖 = 𝑓1 + 𝑓2 + 𝑓3 + … + 𝑓𝑖 De façon similaire nous pouvons définir l’effectif cumulé 𝑁𝑖. Tableau 2 : Calcul des fréquences relatives, en (%), et cumulées de l’exemple précédent de la répartition de 150 étudiants par âge. 𝑥: Effectif Fréquence (𝑓i ) 𝑓i (%) Effectifs Effectifs Fréquences Fréquences Age (𝑛i ) = 𝑓i × 100 cumulés cumulés cumulées cumulées Ascendants descendants Ascendants Descendants (𝑁𝑖 ) (𝑁𝑖 ) (𝐹i ) (𝐹i ) 17 45 45/150=0.3 30% 45 150 0.3 1 18 55 55/150=0.367 36,67% 45+55=100 150 - 45=105 0.3+0.367= 1- 0.3=0.7 0.667 19 42 42/150=0.28 28% 45+55+42=14 105 – 55 = 50 0.667+0.28= 0.7 - 0.367 = 2 0.947 0.333 20 8 8/150=0.053 5.33% 45+55+42+8= 50 - 48= 8 0.747+0.053= 0.333 - 0.28= 150 1 0.053 Total N=150 1 100%.... 2. Tableaux statistiques et représentations graphiques Il s’avère difficile de travailler sur des séries statistiques brutes, notamment si elles sont longues. Pour faciliter la lecture des données, on les regroupe, dans un premier temps, dans un tableau statistique avec les effectifs (simples ou relatifs) correspondant à chaque modalité de nos variables étudiées (voir les tableaux plus haut N°1 et N°2), comme nous pouvons les synthétiser par des graphiques. 2.1 Représentations graphiques des caractères qualitatifs Les modalités d’un caractère qualitatif sont représentées généralement par des graphiques qui utilisent des surfaces : représentation en cercle ou demi-cercle, carrés, tuyaux, etc. ou des volumes : sphères, cônes, cylindres, etc. L’étude graphique constitue donc une partie importante de l’analyse de ce type de caractères, car on ne peut pas leur appliquer les techniques de calcul utilisées avec les nombres, c’est-à-dire que l’on ne peut pas en donner un résumé par quelques chiffres significatifs. Chapitre 1 : Statistique descriptive 6 Exemple : Dans le CHU d’une ville, 250 patients atteints d’un cancer d’estomac sont répartis selon le stade d’avancement de ce dernier. La population : l’ensemble des patients atteints d’un cancer d’estomac du CHU d’une ville. L’unité statistique : patient atteints d’un cancer d’estomac. La variable statistique (le caractère) X : le stade d’avancement du cancer d’estomac. Type de la variable : qualitative ordinale. Tableau 3: Répartition de 250 patients du CHU d’une ville selon leur stade d’avancement du cancer d’estomac. Stades du cancer Effectif (ni) Fréquences relatives (fi) Fréquences (%) Stade 0 60 0.24 24% Stade 1 30 0.12 12% Stade 2 55 0.22 22% Stade 3 15 0.06 6% Stade 4 50 0.2 20% Stade 5 40 0.16 16% Total N=250 1 100% Diagramme circulaire (cercle ou demi-cercle) Pour ce type de représentation graphique, la surface du cercle ou du demi-cercle est partagée en pourcentages du nombre d’individus dans la population qui correspondent aux différentes modalités qui définies la variable étudiée (la surface est proportionnelle à l’effectif, ou à la fréquence, de la modalité). Pour déterminer le degré de chaque modalité dans le cercle, on applique la règle de trois comme suit : 𝑁 → 360° (ou 180° pour un demi-cercle). 𝑛𝑖 → 𝑑𝑖 (Le degré de la modalité i dans le cercle). 𝑛𝑖 × 360° 𝑛𝑖 × 180° et donc, 𝑑𝑖 = 𝑁 (ou 𝑁 pour un demi-cercle). Graphique N°1 : Diagramme circulaire de la répartition des 250 patients du CHU d’une ville selon leur stade d’avancement du cancer d’estomac Répartitioin des patients du CHU d'une ville selon le stade d'avancement du cancer d'estomac (%) Stade 5 Stade 0 16% Stade 0 24% Stade 1 Stade 2 Stade 4 20% Stade 1 Stade 3 12% Stade 3 Stade 4 6% Stade 2 Stade 5 22% Chapitre 1 : Statistique descriptive 7 Le tuyau d’orgue Pour représenter les données en tuyau on respecte le principe de proportionnalité de la surface du tuyau attribuée à chaque modalité du caractère en fonction de l’importance de cette modalité du caractère dans la population étudiée. Pour obtenir un graphique plus lisible, vous pouvez ordonner les données, par ordre croissant ou décroissant. Graphique N°2 : Tuyau de la répartition des patients selon le stade d’avancement du cancer d’estomac Répartitioin des patients du CHU selon le stade d'anacement du cancer d'estomac (%) 100% 6% effectif des patients en (%) 12 % 80% 16 % Stade 3 60% 20 % Stade 1 40% Stade 5 22 % Stade 4 20% 24 % Stade 2 0% Stade 0 Types du cancer 2.2 Tableau statistique et représentations graphiques des caractères quantitatifs 2.2.1 Représentation graphique des caractères discrets Diagramme en bâtons Un caractère quantitatif discret est représenté par un diagramme en bâtons. Il est utilisé pour représenter les effectifs 𝑛𝑖 et les fréquences relatives 𝑓𝑖. Exemple : lors d’un test de contrôle de qualité, on relève la présence d’une substance chimique nocive, qui est utilisée dans le processus de nettoyage des machines, dans plusieurs lots d’un médicament que l’on appelle « M ». De ce fait, on s’intéresse au nombre de boite de médicaments contaminées par cette substance chimique nocive. La population : l’ensemble des 150 lots du médicament « M ». L’unité statistique : un lot du médicament « M ». La variable statistique (le caractère) X : le nombre de boite contaminée par lot. Type de la variable : quantitative discrète. Chapitre 1 : Statistique descriptive 8 Tableau 4 : Nombre de boite de médicament contaminée par lot. Nombre de Nombre de Fréquence Graphique N°3 : Digramme en bâton du nombre de boites contaminées par lot boites lots (ni) relatives contaminée (𝑓i ) par lot 0 40 0.267 1 30 0.20 2 20 0.133 3 30 0.20 4 10 0.067 5 20 0.133 Total 150 1 Remarque : En reliant les sommets des bâtons on obtient le polygone des effectifs (ou fréquences relatives). Voir graphique ci-dessous. Graphique N°4 : le polygone des fréquences (ou effectifs) Source : pris sur internet. La fonction de répartition (de distribution) À partir des distributions des fréquences relatives cumulées d’une variable statistique, nous pouvons définir et tracer la fonction de répartition. La courbe que nous obtenons est appelée "la courbe cumulative des fréquences". Dans le cas d’une variable discrète, elle prend la forme d’une courbe en escalier représentant les fréquences cumulées relatives. Chaque palier horizontal a pour coordonnées (𝑥𝑖 , 𝐹𝑖 ). Définition Soit X une variable statistique discrète et 𝑥1 𝑥2 ,..., 𝑥𝑘 sont les valeurs qu’elle peut prendre X et qui sont rangées dans un ordre croissant (ou décroissant). La fonction de répartition d’une variable statistique discrète est définie de R dans [0, 1] et est donnée par : Chapitre 1 : Statistique descriptive 9 𝐹(𝑥) Graphique N°5 : le diagramme cumulatif des fréquences 0, si x < 𝑥1 f1 si 𝑥1 ≤ x < 𝑥2 f1 + f2, si 𝑥2 ≤ x < 𝑥3.. =. f1 + f2 + ⋯ + fi si 𝑥𝑖 ≤ x < 𝑥i+1... { 1, si x ≥ 𝑥𝑘 Source : Prise sur internet 2.2.2 Tableau statistique et représentation graphique des caractères continus Pour étudier les variables statistiques quantitatives continues, il faut tout d’abord passer par regrouper ses k modalités en des classes : [𝑒0 , 𝑒1 [,[𝑒1 , 𝑒2 [,[𝑒2 , 𝑒3 [,….., [𝑒𝑘−1 , 𝑒𝑘 [. Définition On appelle classe de valeurs de X un intervalle de type [𝑒𝑘−1 , 𝑒𝑘 [, tel que X ∈ [𝑒𝑖−1 , 𝑒𝑖 [, si et seulement si𝑒𝑖−1 ≤ X(ω) < 𝑒𝑖. Cela veut dire que les valeurs du caractère sont dans la classe[𝑒𝑖−1 , 𝑒𝑖 [. 𝒆𝒊−𝟏 est appelée la borne inférieure de la classe ] 𝑒𝑖−1 , 𝑒𝑖 ]. 𝒆𝒊 est appelée la borne supérieure de ] 𝑒𝑖−1 , 𝑒𝑖 ]. 𝒂𝒊 = 𝒆𝒊 −𝒆𝒊−𝟏 : est appelée l’amplitude de classe : l’écart entre la borne supérieure et la borne inférieure d’une classe. Ses modalités 𝑥i deviennent alors les centres de chaque classe (𝑐i ). Pour une classe ] 𝑒𝑖−1 , 𝑒𝑖 ], il 𝒆𝒊−𝟏 + 𝒆𝒊 est définit par : 𝒄𝐢 = , 𝑖 ∈ {1, 2,... , 𝑘}. 𝟐 Calcule de l’amplitude des classes - Détermination du Nombre de classes : nous cherchons à savoir en combien de classes peut- on répartir les différentes valeurs de nos observations? - Soit N l’effectif total. Nous pouvons déterminer le nombre de classes de trois façons : 1. 𝑘 ≈ √𝑁. 2. la formule de Sturge k = 1 + 3.3 log10 (N). 4 3. la formule de Yule :𝑘 = 2.5√𝑁. 𝐥′ é𝐭𝐞𝐧𝐝𝐮 𝐱𝐦𝐚𝐱 – 𝐱𝐦𝐢𝐧 l’amplitude de classe : 𝒂𝐢 = 𝒍𝒆 𝒏𝒐𝒎𝒃𝒓𝒆 𝒅 𝒆𝒄𝒍𝒂𝒔𝒔𝒆 = 𝒌 L’étendu est donné par l’écart entre la plus grande valeur des observations et la plus petite valeur des observations. Remarque Le nombre de classes ne doit pas être trop petit (perte d’informations) ni trop grand, le regroupement en classes est alors inutile et de plus, certaines classes pourraient avoir des effectifs trop faibles. Chapitre 1 : Statistique descriptive 10 En général, le nombre de classes est compris entre 5 et 20; il dépend du nombre d’observations et de l’étalement des données. Le regroupement en classes fait perdre aux individus leur caractère propre ainsi que les détails fins des distributions. Exemple : Prenons l’exemple du poids (en Kg) de 35 étudiants comme suit: 53, 56, 40, 48, 56, 53, 50, 42, 55, 52, 48, 43, 51, 47, 62, 68, 40, 50, 62, 46, 45, 54, 52, 50, 47, 44,54, 55, 60, 55, 58, 55, 70, 58, 53. Selon la formule de Sturge : k = 1 + 3.3 log10 (35) = 6.13. 4 Selon la formule de Yule : 𝑘 = 2.5√35= 6.08 On obtient donc, le nombre de classe est : 𝑘 = 6. xmax − xmin 70 − 40 𝑎i = = =5 𝑘 6 Tableau 5 : Regroupement des observations sur le poids des 35 étudiants en classes Le poids (en Kg) [40-45[ [45-50[ [50-55[ [55-60[ [60-65[ [65-70] Effectif (ni) 5 7 10 8 3 2 Histogramme des fréquences ou d’effectifs L’histogramme est un graphique composé de rectangles continus où les classes sont reportées sur l’axe des abscisses, et chaque classe est représentée par un rectangle dont la surface est proportionnelle à la fréquence (fi) ou l’effectif (ni) de cette classe dans la population. Pour tracer l’histogramme, nous distinguons deux cas de figure, selon que les amplitudes sont égales ou non. Cas 1 : classes à amplitudes égales Dans cet exemple, les classes étant toutes de même amplitude, l’histogramme est tracé par des rectangles dont l’aire est proportionnelle à la fréquence de la classe correspondante. Graphique N° 6 : Histogramme avec amplitude égales (Tableau 5 de exemple précédents) Répartition des 35 étudiants selon leur poids 12 10 8 effectif (ni) 6 4 2 0 [40-45[ [45-50[ [50-55[ [55-60[ [60-65[ [65-70] Le poids en Kg Chapitre 1 : Statistique descriptive 11 Exemple : Les prélèvements du taux de glycémie de 130 patients hospitalisés dans le service cardiologie du CHU d’une ville, sont donnés dans le tableau ci-dessous. La population : l’ensemble des patients hospitalisés au service cardiologie du CHU d’une ville. L’unité statistique : un patient hospitalisé. La variable statistique (le caractère) X : le taux de glycémie (g/l). Type de la variable : quantitative continue. Tableau 6 : Répartition du taux de glycémie de 130 patients hospitalisés. Taux de glycémie Effectif Fréquences fréquences Effectifs Fréquences (g/l) (𝑛i ) relatives (𝑓i ) en (%) Cumulés (𝑁i ) cumulés (𝐹i ) [0.7 - 0.75[ 8 0.06153846 6.15 8 0.06153846 [0.75 - 0.8[ 12 0.09230769 9.23 20 0.15384615 [0.8 - 0.85[ 4 0.03076923 3.08 24 0.18461538 [0.85 - 0.9[ 5 0.03846154 3.85 29 0.22307692 [0.9 - 0.95[ 15 0.11538462 11.54 44 0.33846154 [0.95 – 1[ 25 0.19230769 19.23 69 0.53076923 [1 - 1.05[ 17 0.13076923 13.08 86 0.66153846 [1.05 - 1.1[ 14 0.10769231 10.77 100 0.76923077 [1.1 – 1.15[ 12 0.09230769 9.23 112 0.86153846 [1.15 - 1.2[ 10 0.07692308 7.69 122 0.93846154 [1.2 - 1.25] 8 0.06153846 6.15 130 1 Total 130 1 100% Graphique N° 7 : Histigramme du taux de glycémie de 130 patients hospitalisés au service cardiologie de CHU. répartitioin des 130 patients selon le taux de glycémie (g/l) 30 25 20 effectif (ni) 15 10 5 0 Taux de glycémie (g/l) Chapitre 1 : Statistique descriptive 12 Cas 2 : classe à amplitude inégales Dans ce deuxième cas de figure, où les amplitudes sont inégales, pour tracer l’histogramme, on devrait d’abord passer par ce qu’on appelle la correction des effectifs. Pour ce faire, nous procédons comme suit : - Déterminer les amplitudes (𝑎𝑖 ) de chaque classe. 𝑛𝑖 𝑓𝑖 - Calculer la densité des effectifs : 𝑑𝑖 = ou de fréquence3 𝑑𝑖 = pour chaque classe. 𝑎𝑖 𝑎𝑖 - Calculer les effectifs corrigés : 𝑛𝑖𝑐 = 𝑑𝑖 × 𝑀𝑖𝑛 (𝑎𝑖) ; où 𝑀𝑖𝑛 (𝑎𝑖) représente la plus petite amplitude des classes. - L’histogramme est tracé à partir de ces effectifs corrigés, où chaque classe est représentée par un rectangle dont la hauteur est proportionnelle à la densité de cette classe. Dans ce cas, la surface du rectangle est proportionnelle à l’effectif correspondant à cette classe. Remarque La valeur de 𝑀𝑖𝑛 (𝑎𝑖) est utilisée comme étant une unité d’amplitude de classe. Exemple (voir exercice 12 TD) Polygone de fréquences : dans le cas d’une variable continue, le polygone de fréquence est tracé en joignant les centres du segment de chaque rectangle (centres de chaque classe). L’aire du polygone est égale à l’aire de l’histogramme4. La fonction de distribution : La courbe cumulative croissante Pour une variable continue regroupée en des classes données par : [ 𝑥0 , 𝑥1 [, [ 𝑥1 , 𝑥2 [, [ 𝑥2 , 𝑥3 [, … , [𝑥𝑘−1 , 𝑥𝑘 ]. Dans ce cas, la courbe cumulative des fréquences est nulle avant (𝑥0 :la borne inférieure de la première classe), constante et égale à 1 à partir de 𝑥k : la borne supérieure de la dernière classe. Etant la variable est continue, les différents points (𝑥i , 𝐹i ) sont reliés par un segment, ce qui donne la forme d’une courbe continue (voir graphique ci- dessous). Elle donne le nombre d’observations inférieures à une valeur quelconque de la série. La fonction de distribution : La courbe cumulative décroissante D’une façon analogue à la précédente, nous pourrions définir également la courbe cumulative décroissante, où les points ont pour abscisses, les limites inférieures des classes et pour ordonnées, les fréquences cumulées décroissantes (pour le dernier point, la valeur est 0). Elle donne le nombre d’observations supérieures à une valeur quelconque de la série. 3 Dans le cas d’un histogramme des fréquences. 4 Le polygone doit être fermé des deux coté avec l’axes des abscisses, en créant des classes fictives avant la première classe, et après la dernière. Chapitre 1 : Statistique descriptive 13 Graphique N° 8: La courbe cumulative des fréquences cas d’une variable continue Courbe cumulative croissante Exemple de courbe cumulative croissante et décroissante Source : prise sur internet 3. Caractéristiques d’une variable statistique On peut distinguer deux types de caractéristiques (indicateurs): caractéristiques de tendance centrale et des caractéristiques de dispersion. Ces derniers, nous indique les fluctuations des observations autour de la valeur centrale exprimés par des écarts par rapport à celle-ci..3.1 les caractéristiques de tendance centrale et de position (Moyenne, Médiane et Mode) Elles donnent une idée de l’ordre de grandeur des valeurs constituant la série ainsi que la position où semblent se concentrer les valeurs de cette série. Les principales caractéristiques de tendance centrale sont la moyenne arithmétique, la médiane, le mode et les quantiles. 3.1.1. La moyenne arithmétique Définition La moyenne arithmétique est la somme de toutes les valeurs observées divisée par le nombre total des observations. - Cas d’une variable statistique discrète (données non groupées) Soient 𝑋 une variable statistique discrète à 𝑘 modalités et 𝑥1 , 𝑥2 ,... , 𝑥𝑘 ses valeurs, et 𝑛1 , 𝑛2 ,... , 𝑛𝑘 , les effectifs qui y sont associée; avec 𝑁 = ∑𝑘𝑖=1 𝑛𝑖 est l’effectif total. La moyenne arithmétique notée 𝑥̅ de cette série statistique, est définie par : 𝑋: 𝛺 → 𝐶 𝑒𝑠𝑡 𝑢𝑛𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑞𝑢𝑒 𝑘 𝑘 1 ̅𝑥 = ∑ 𝑛𝑖 𝑥𝑖 = ∑ 𝑓𝑖 𝑥𝑖 𝑁 𝑖=1 𝑖=1 Propriétés - Changement d’origine et changement d’échelle : pour toutes les données, 𝑦𝑖 = a𝑥𝑖 + b → ̅𝑦 = a 𝑥̅ + b, a et b étant des constantes. - Elle prend en compte toutes les valeurs de la série et elle est facile à calculer. - Elle est sensible aux valeurs extrêmes ou « aberrantes ». Chapitre 1 : Statistique descriptive 14 Tableau 7 : Reprenons l’exemple du nombre de boite de médicament contaminée par lot (p.8). 𝑘 Nombre de Nombre de 𝑛𝑖 𝑥𝑖 1 300 boites lots (ni) 𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖 = = 2. contaminée 𝑛 150 𝑖=1 0 40 0 Le nombre moyen de boite contaminée par lot est 2. 1 30 30 Remarque 2 20 40 La moyenne arithmétique calculée à partir des 3 30 90 observations directes est appelée la moyenne simple : 𝟏 4 10 40 ̅ = ∑𝒌𝒊=𝟏 𝒙𝒊. 𝒙 𝒏 5 20 100 La moyenne arithmétique calculée en pondérant chaque observation par son effectif est appelée une moyenne Total 150 300 𝟏 pondérée : 𝒙̅ = ∑𝒌𝒊=𝟏 𝒏𝒊 𝒙𝒊. 𝒏 - Cas d’une variable continue Pour ce type de variable, les observations sont groupées en des classes. Soient 𝑋 une variable statistique groupées en 𝑘 classes, où 𝑐1 , 𝑐2 ,... , 𝑐𝑘 , sont les centres de ces classes et 𝑛1 , 𝑛2 ,... , 𝑛𝑘 , les effectifs qui y sont associée; avec 𝑁 = ∑𝑘𝑖=1 𝑛𝑖 est l’effectif total. X: Ω → C est une variable statistique k k 1 x̅ = ∑ ni ci = ∑ fi ci N i=1 i=1 Exemple : Reprenant l’exemple du taux de glycémie Tableau 8 : calcul des centres de classes pour l’exemple du taux de glycémie de 130 patients Classes du Taux Effectifs Centre de classe (ci ) n i ci de glycémie (𝑔/𝑙) (ni) 0.7-0.75 8 0.725 5.8 0.75-0.8 12 0.775 9.3 0.8-0.85 4 0.825 3.3 0.85-0.9 5 0.875 4.375 0.9-0.95 15 0.925 13.875 0.95-1 25 0.975 24.375 1- 1.05 17 1.025 17.425 1.05 1.1 14 1.075 15.05 1.1-1.15 12 1.125 13.5 1.15-1.2 10 1.175 11.75 1.2-1.25 8 1.225 9.8 130 128.55 1 128.55 𝑥̅ = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑐𝑖 = = 0.9888 : le taux de glycémie moyen est de : 0.9888. 𝑔/𝑙. 130 Chapitre 1 : Statistique descriptive 15 3.1.2 Autres types de moyenne La moyenne géométrique La moyenne géométrique simple d’une variable, que l’on note g(x), est égale à la racine ki eme du produit de k valeurs de cette variable. Elle est notamment utilisée pour calculer des taux de croissance moyens. - Quand les k périodes considérées sont de même durée (par exemple une année) : 1 g(𝑥) = 𝑘√𝑥1 , 𝑥2 ….. 𝑥𝑘 = (𝑥1 , 𝑥2 ….. 𝑥𝑘 )𝑘. - Si les multiplicateurs successifs 𝑥1 , 𝑥2 ….. 𝑥𝑘 sont observés respectivement sur des durées 𝑛1 , 𝑛2 ….. 𝑛𝑘 , alors la moyenne géométrique s’écrit : g(𝑥) = 𝑘√𝑥1 𝑛1 , 𝑥2 𝑛2 ….. 𝑥𝑘 𝑛𝑘. Avec : 𝑥1 , 𝑥2 ….. 𝑥𝑘 > 0 , N = ∑𝑘𝑖=1 𝑛𝑖 = 𝑛1 + 𝑛2 + 𝑛3 + …. +𝑛𝑘. La moyenne harmonique : elle est utilisée dans des cas où la variable étudiée est un rapport de deux variables, comme dans le calcul d’une vitesse moyenne (nombre de ∑𝑘 𝑖=1 𝑛𝑖 kilomètres divisé par nombre d’heures). ℎ(𝑥) = 𝑛𝑖. ∑𝑘 𝑖=1𝑥𝑖 3.1.2. La médiane Utile à la fois pour les données qualitatives ordonnées (variables ordinales) et pour les données quantitatives discrètes, la médiane est la valeur des observations (de la variable statistique) qui partage l'effectif total de la série statistique ordonnée en deux groupes de même effectif, en d’autres termes 50 % des observations se trouvent de chaque côté de la valeur médiane. Propriétés - La médiane n’est pas influencée par les valeurs extrêmes ou aberrantes. - La médiane est influencée par le nombre des données mais non par leurs valeurs. - La médiane est le point intersection des courbes cumulatives croissante et décroissante. - Cas d’une variable discrète On commence tout d’abord par classer les individus par un ordre croissant, et puis on prend celui du milieu. On distingue deux cas, selon que la valeur de l’effectif total (N) soit paire ou impaire : Si N est impaire : Si N est impaire : 𝑁 = 2𝑝 + 1, alors la médiane est la valeur de l’observation (𝑥i ) qui se trouve à l’ordre 𝑝 + 1, Ou bien (𝑁 + 1)/2. 𝑀𝑒 = 𝑥𝑝+1 = 𝑥𝑁+1 2 Exemple 1 : soit la série suivante : 43, 65, 89, 78, 55, 62, 55, 73, 49, 58, 67 𝑁 = 2𝑝 + 1 = (2 × 5) + 1 ; 𝑝 = 5 → la médiane est la valeur de la 6e observation. Les observations ordonnées dans un ordre croissant : 43, 49, 53, 55,58, 62, 65, 89, 67, 73, 78. 𝑴𝒆 = 𝒙𝒑+𝟏 = 𝒙𝟔 = 𝟔𝟐 Si N est paire : Si N est paire :𝑁 = 2𝑝, alors la médiane 𝑀𝑒 est la moyenne des valeurs qui se trouve entre 𝑁 𝑁 l’ordre 𝑝 𝑒𝑡 𝑝 + 1 ou ( 2 𝑒𝑡 2 + 1). Chapitre 1 : Statistique descriptive 16 Exemple 2 43, 65, 89, 78, 55, 62, 55, 73, 49, 58, 67 ,66 Les observations ordonnées dans un ordre croissant : 43, 49, 53, 55,58, 62, 65, 66, 89, 67, 73, 78 𝒙𝒑 + 𝒙𝒑+𝟏 𝒙𝟔 + 𝒙𝟕 𝟔𝟐 + 𝟔𝟓 𝑴𝒆 = = = = 𝟔𝟑. 𝟓 2 2 𝟐 Exemple 3 : prenons l’exemple de la note de 20 étudiants. 𝑵 𝑵 xi ni Ni La médiane est la moyenne de la et + 1eme valeur : 2 2 5 6 6 𝑵 𝑵 8 4 10 La 10 eme valeur =10eme et + 1 = 11𝑒𝑚𝑒 2 2 12 7 17 La 11eme valeur 13 1 18 8+12 16 2 20 Donc : 𝑀𝑒 = = 10 2 20 - Cas d’une variable continue Dans le cas d’une variable continue, la médiane est donnée par la formule suivante: 𝑁 2 − ∑