Notions de Statistiques S5 - PDF

Document Details

FascinatingDysprosium1524

Uploaded by FascinatingDysprosium1524

Institut Supérieur des Professions Infirmières et Techniques de Santé Tétouan

Tags

statistics biostatistics statistical methods data analysis

Summary

This document provides an overview of statistical concepts and methods, likely for a fifth-semester course at a Moroccan institute of health professions. It details the key aspects of the curriculum, including the nature of statistics and biostatistics, applications in various disciplines, and a framework for statistical analysis. The document's scope appears to cover descriptive statistics, data presentations, and theoretical foundations, with examples and potentially exercises.

Full Transcript

ROYAUME DU MAROC MINISTÈRE DE LA SANTE INSTITUT SUPERIEUR DES PROFESSIONS INFERMIERES ET TECHNIQUES DE SANTE MARRAKECH SEMESTRE S5 MODES D’ÉVALUATION  Contrôles continus : 25%  Examen de fin de semestre :75% PLAN INTRODUCTI...

ROYAUME DU MAROC MINISTÈRE DE LA SANTE INSTITUT SUPERIEUR DES PROFESSIONS INFERMIERES ET TECHNIQUES DE SANTE MARRAKECH SEMESTRE S5 MODES D’ÉVALUATION  Contrôles continus : 25%  Examen de fin de semestre :75% PLAN INTRODUCTION I.DÉFINITIONS DESCONCEPTS 1.Les statistiques 2.La statistique 3.Une statistique 4. La Biostatistique/ biométrie 5. Domaines d’application de La Biostatistique/ biométrie II. ELEMENTS DE LA BIOSTATISTIQUE 1. Population 2. Unité statistique 3.Échantillon 4.Variable statistique 5.Types de variables 6.types de démarches en bio -statistique: PLAN III STATISTIQUES DESCRIPTIVES: 1.Les distributions de: a. Effectif b. Fréquence c. Pourcentage d. Pourcentage cumulatif 2. Présentation des tableaux de fréquences 3. Représentations graphiques 4. Paramètres de tendance centrale /de position a. Mode b. Moyenne arithmétique c. Médiane d. Les quartiles 5. Paramètres de dispersion a. Amplitude ou étendue b. Variance d’une population, c. Variance d’un échantillon d. Ecart type INTRODUCTION La résolution des problèmes de recherche fait appel  à une compréhension de la variabilité ainsi qu’à une connaissance des outils descriptifs et analytiques reliés à la variabilité.  les données collectées d’une recherche doivent être regroupes à des fin d’interprétation commodes.  Pour cela L’ étudiant doit recourir a un manuel de statistique appliquée a sa discipline pour pouvoir exploiter les résultats de son travail L’ étudiant chercheur est tenu de respecter dans son travail les principes généraux de la méthode statistique à savoir: 1. Définir la population, l’échantillon/le milieu et les caractères/variables à étudier 2. Collecter les renseignements/les données utiles 3. Présenter les résultats sous forme des tableaux , des graphiques 4. Analyser et interpréter les résultats obtenus en vue d’une conclusion ou de prise de décision I. DEFENITION DES CONCEPTS 1. Les statistiques : sont des dénombrements type recensement 2. La statistique « est un mode de pensée permettant de recueillir, de traiter et d’interpréter les données qu’on rencontre dans divers domaines, et tout particulièrement dans les sciences de la vie, du fait que ces données présentent une caractéristique essentielle : la variabilité. » D. SCHWARTZ 3. Une statistique : un nombre/paramétre calculé à partir d'observations. 4. La Biostatistique/ biométrie: C’ est l'application des concepts et principes statistiques en biologie, en médecine,en sante publique, en épidémiologie..  Elle Permet de confirmer ou d’infirmer une hypothèse avec une marge d’erreur la plus petite possible et/ou prédire un événements à l’aided’outils Il faut que la façon d’obtenir ces résultats (stratégie) et l’exactitude de leur valeur (statistique) puissent garantir la justesse des conclusions. Nécessité d’une méthodologie adéquate permettant de porter des conclusions en minimisant les risques d’erreur d’interprétation I. DEFENITION DES CONCEPTS 5. Domaines d’application de La Biostatistique/ biométrie: La biostatistique est exploitée dans plusieurs domaines :  la santé publique, y compris l'épidémiologie, les services de santé, la nutrition et l’environnement ;  L'agriculture afin d'améliorer les cultures;  L'écologie : en vue de de mettre en place des prévisions écologiques ;  la conception et analyse d'essais cliniques en médecine EXP:  L’effet du cholestérol sur la pression artérielle  les malades traités par radiothérapie comparés à ceux traités par chirurgie pour un cancer de la même localisation et de même stade, auront toujours une survie plus haute. On distingue à la biostatistique deux Branches: a) Statistiques descriptive b) Statistique inférentielle R e c e n s e m e n t C o l l e c t e d e s d o n n é e s S o n d a g e S t a t i s t i q u e D e s c r i p t i v e A n a l y s e d e s d o n n é e s I n f é r e n c e S t a t i s t i q u e C o n c l u s i o n s P r i s e d e s d é c i s i o n s Étapes de la méthode statistique a ) STATISTIQUE DESCRIPTIVE (OU STATISTIQUE DÉDUCTIVE) C’est la partie des statistiques qui: permet de décrire une série de données (paramètres de centrage comme la moyenne, distributions, paramètres de dispersion comme la variance...). s'occupe de la description des données: tableau, graphique, pourcentage, B) STATISTIQUE INFÉRENTIELLE. OUINDUCTIVE Permet au chercheur: de généraliser à la population, les propriétés observées sur les échantillons de faire des prévisions.et d’en tirer des conclusions générales sur une population à partir d'expériences sur un échantillon, de confirmer ou infirmer une hypothèse par des tests II.ELEMENTS DE LA STATISTIQUE 1. POPULATION  Ensemble des individus (ou unités statistiques ) pour lesquels on étudie une ou plusieurs caractéristiques  Taille de la population On la note N :est Le nombre d'individus constituant la population d’interet dans une étude particulière. Exemples:  Femmes atteintes du cancer du sein au Maroc  Population des lymphocytes 2. INDIVIDU  unité statistique: un élément de l’ensemble étudié  Une unité distincte chez laquelle on peut observer une ou plusieurs caractéristiques données, ex :  un étudiant inscrit dans la licence d’anesthésie  un patient recevant une dose anesthésiant 3. ÉCHANTILLON C'est un sous ensemble de la population considérée. Les observations, portant sur la/les variables à l'étude, sont faites sur une partie des individus. Taille de l'échantillon : Le nombre d'individus constituant l’ échantillon On la note : n 3.ÉCHANTILLON Un Echantillon est dit représentatif si sa composition est conforme à celle de la population d’origine. Les observations faites sur l’échantillon peuvent être généralisées au niveau de la population lorsqu’il s’agit d’échantillon représentatif. La composition de deux échantillons tirés de la même population n’est, en général, pas la même: c’est la fluctuation d’échantillonnage. 4. VARIABLE STATISTIQUE C'est le caractère ou l'aspect que l'on se propose d'observer dans la population ou l'échantillon Caractéristique susceptible de variations observables. Notation : X , Y , Z,... (caractères) Valeurs: les mesures distinctes d'une caractéristique donnée. Notation : x1 , x2 ,... (modalités) Valeurs possibles : tous les résultats possibles a priori si on fait une observation d'une variable Valeur observée: résultat a posteriori d'une observation d'une variable 4. VARIABLE STATISTIQUE Les paramètres étudiés ont comme caractéristique commune d’être spontanément « variables »:  d’un individu à l’autre, C’est ce qu’on appelle des variations aléatoires  ou d’un groupe à l’autre, c’est la fluctuation la variabilité inter-individuelle (l’individu est unique) se superpose donc une variabilité intra-individuelle(l’individu diffère de lui-même d’un moment à l’autre). Exemple: la glycémie d’un sujet à jeun. 5.TYPES DE VARIABLES Les variables peuvent être : a ) Va r i a b l e s q u a l i t a t i v e s b ) Va r i a b l e s q u a n ti t a t ives A. Variables qualitatives Variable qualitative: Est une variable statistique dont les valeurs s'expriment de façon littérale (ou par un codage), et sur lesquelles les opérations arithmétiques comme le calcul de la moyenne n'ont pas de sens. Ses valeurs peuvent être des états, des opinions, des propriétés,... des modalités qui correspondent à des "qualités«. Exemple:  Population : les résidents de Marrakech (2020)  Unité statistique : un résident  Variable : X: la langue maternelle d'un résident  Modalités : Arabe , Berbère , Français , Anglais ,Autres Types du c a r a c t è r e / v a r i a b l e q u a l i t a t i v e  Variable qualitative nominale: les modalités sont des noms, exemple : groupes sanguin  Variable qualitative ordinale où les modalités prennent une relation d’ordre exemple :stades d’une maladies/niveaux d’etude  Variable qualitative binaire ou dichotomique, exemple : malade/sain, homme/femme, B. Variable quantitative variable quantitative = variable statistique dont les valeurs s'expriment par des nombres réels , sur lequel les opérations arithmétiques comme le calcul de la moyenne ont un sens. On distingue deux types de variables quantitative : variable quantitative discrète. variable quantitative continue variable quantitative discrète : ne peut prendre qu’un nombre fini de valeurs et isolées les unes des autres Exemple de variable quantitative discrete: nombre d’enfants par femme marocaine Population : les femmes du Maroc Unité statistique : femme Variable étudiée : X : le nombre d‘enfants par femme Valeurs : xi = 1 , 2 , 3 , 4 ,... , 11. (Valeurs observées v a r i a b l e q u a n t i t a t i v e continue : peut prendre toute valeur réelle, Les valeurs se situent donc dans des intervalles ou des classes Pour construire ces intervalles, on respecte les règles suivantes :  Il ne faut prendre ni trop ni trop peu de classes.  les amplitudes des classes sont égales.  Chaque classe contient sa borne inférieure mais pas sa borne supérieure.  Dans les calculs, une classe sera représentée par son centre, qui est le milieu de l'intervalle. v a r i a b l e q u a n t i t a t i v e continue : a b x  i 2 1 10 4 D n 4 v a r i a b l e q u a n t i t a t i v e continue : Exemple de variable quantitative continue: Dose d’irradiation reçue par un patient en scintigraphie Population/echantillon : l’ensemble des patients ayant fait exploration scintigraphie Unité statistique : patient Variable étudiée : X : la dose d’irradiation(mci) Valeurs : x Î [0 , 20 [ , [20 , 40 [, [40 , 60 [... REMARQUES Une variable chiffrée n’est pas forcément une variable quantitative (le chiffre peut être un codage), exemple : cellule morte : M cellule vivante : V ou bien cellule morte : 1 cellule vivante : 0 On peut transformer une variable quantitative en variable qualitative, avec une perte de l’information exemple : dose d’irradiation reçues par des patients  En fonction de la dose, classement en catégories : très faible dose, faible dose, forte dose, très forte dose. les variables peuvent être de nature variée : 1) indépendantes ou dépendantes 2) Variables contrôlées non contrôlées REMARQUES variable indépendante = variable statistique dont les valeurs sont indépendantes des autres variables étudiées variable dépendante = variable statistique dont les valeurs sont dépendantes des autres variables étudiées variable contrôlée = variable statistique dont les valeurs sont imposées par l’expérimentateur exemple : - effet de l’adrénaline sur la fréquence cardiaque. -effet de la température sur la survie de la tumeur variable non contrôlée = variable statistique dont les valeurs dépendent pas de l’expérimentateur exemple : -fréquence des cancers de la thyroïde après explosion d’un centre nucléaire. TYPES DE DÉMARCHE EN BIO - STATISTIQUE: a) Echantillonnage (population → échantillon) b) Estimation (échantillon → population). TYPES DE DÉMARCHE EN BIO - STATISTIQUE:. TYPES DE DÉMARCHE EN BIO - STATISTIQUE: A) ECHANTILLONNAGE (POPULATION→ ÉCHANTILLON)  Il s’agit d’une démarche déductive de la statistique "du général au particulier".  On connaît la population, on s’intéresse à l’échantillon.  Principe :on travaille sur un échantillon que l’on suppose représentatif.  Exemple : prélèvement d’un échantillon de sang. TYPES DE DÉMARCHE EN BIO - STATISTIQUE: B) ESTIMATION (ECHANTILLON→ POPULATION)  Démarche inductive "du particulier au général".  On connaît l’échantillon, on s’intéresse à la population.  Elle vise à étudier, à prédire les paramètres d’une population inconnue à partir des résultats obtenus grâce à des échantillons.  Principe: Estimation ponctuelle et par intervalle de confiance IC , ou par Tests d’hypothèses statistiques. III STATISTIQUES DESCRIPTIVES 1. DISTRIBUTION  Une distribution est une fonction qui associe un effectif ou une fréquence d'apparition à une valeur/ classe de valeur d’une variable.  Cette fonction permet de résumer l'information contenue dans un ensemble de données On appelle effectif ou encore fréquence absolue d’une modalité M /classe modale pour une variable étudiée, le nombre d’individus de l’échantillon qui possèdent cette modalité n N = n1 + n2 + n3 + … = n i i 1 ni le nombre d’observations ou d’individus correspondant à la valeur xi du caractère (i est l’indice de la classe) 1. DISTRIBUTION proportion d'individus de la population ou de l'échantillon appartenant à une classe modale/modalité d’une variable donnée , on la note fi. La fréquence d’une valeur xi (ou d’une classe) est obtenue en divisant l’effectif ni de cette valeur (ou de cette classe)par l’effectif total N et n notée fi : i fi = 0 ≤ f i≤ 1 Exemple/ N  Variable étudié: myopie  Echantillon n=1000 enfants  Effectif des enfants myopes: ni=150  Fréquence fi=ni/n=150/1000 =0,15 1. DISTRIBUTION n f  100 i i On peut remplacer fi par fi×100 qui représente N  Donne une meilleure idée de la façon dont sont distribué les scores 1. DISTRIBUTION f / N *100 = ( 7 1 9 / 2 1 4 3 ) *100 = 0. 33 * 100 = 33. 1. DISTRIBUTION L’effectif cumulé est le pourcentage de toutes les observations égales ou inférieurs à une valeur donnée. L’effectif cumulé de la valeur de rang i (ou de la classe de rang i) est la somme de tous les effectifs depuis le premier jusqu’au rang i Pertinent pour les distributions ordinales EXERCICE D’APPLICATION: Le tableau suivant indique la répartition des ménages d’une région selon leur nombre d’enfants Déterminez : 1. la population étudiée ; 2. la variable étudiée. 3. la nature de la variable ; 4. les modalités de la variable 5. l’effectif relatif de chaque modalité EXERCICE D’APPLICATION: Le tableau suivant indique la répartition des ménages d’une région selon leur nombre d’enfants Déterminez : 1. la population étudiée ; 2. la variable étudiée. 3. la nature de la variable ; 4. les modalités de la variable 5. l’effectif relatif de chaque modalité SOLUTION: 1) La population étudiée est composée des familles de La Région. 2) La variable étudiée est X i= « nombred’enfants ». 3) La variable étudiée est quantitative discrète. 4) L’ensemble des modalités de la variable étudiée est M = {0 ; 1 ; 2 ; 3 ; 4 ou +}. 5) Fréquence fi=ni/n 2. TABLEAU STATISRIQUE ET DESTRIBUTIONSDE FREQUENCE a. D is tr ibution d e f r é q u e n c e 1. Chaque ligne correspond à une valeur xi ni fi Ni Fi observée différente. Il y a p valeurs différentes observées x1 n1 f1 N1 F1 2. ni correspond au nombre d’observations (effectif) ayant comme valeur xi x2 n2 f2 N2 F2 3. fi ni correspond à la fréquence (pourcentage) n d’observations ayant comme valeur xi : … … … …. … 4. Ni est l’effectif cumulé c’est dire le nombre xp np fp N p F p d’observations ayant des valeurs inférieures i Ni   n j p n 1 ou égales à xi , j1 5. Fi est la fréquence cumulée c’est à dire la fréquence des observations ayant des valeurs i inférieures ou égales à xi, Fi  f j j1 B. RÈGLES DE PRÉSENTATION DES TABLEAUX  Le titre du tableau en haut clair et complet : phénomène étudié, le lieu, la date, la population de référence  Le titre des lignes et des colonnes  Les unités de mesure des variables  Citer La source  Harmoniser le nombre de chiffres après la virgule à l’intérieur de chaque colonne C. EXEMPLE D’UN TABLEAU STATISTIQUE (VARIABLE QUALITATIVE) Tableau 1 : Répartition de la population selon l’état matrimonial, Canada, 2007 État matrimonial Effectif Pourcentage fi Célibataires 13 800 997 41.8 Marié(e)s 15 916 860 48.3 Veuf(ve)s 1 573 455 4.8 Divorcé(e)s 1 684 714 5.1 Total 32 976 026 100.0 Source : Statistique Canada (http://www40.statcan.gc.ca/l02/cst01/famil01-fra.htm) E. LES DISTRIBUTIONS DE POURCENTAGES CUMULATIFS Nombre d’enfants des répondants (avec enfants) Nombre f pourcentag pourcentag d’enfants e e cumulatif 1 80 54.1 54.1 2 47 31.8 85.8 F 3 11 7.4 93.2 4 et plus 10 6.8 100.0 Total 148 100.0 F / N * 100 = (80 + 47 + 11) / 148 * 100 = (138 / 148) * 100 = 0.932 * 100 = 93.2 D. EXEMPLE D’UN TABLEAU STATISTIQUE (variable quantitative) Tableau 2 : Répartition de la population selon la classe de taille en cm Centre des classes Classes Effectifs ni xi [155;160[ 2 157,5 [160;165[ 2 162,5 [165;170[ 4 167,5 [170;175[ 6 172,5 [175;180[ 7 177,5 [180;185[ 6 182,5 [185;190[ 3 187,5 N =30 4. CARACTÉRISTIQUES DE TENDANCE CENTRALE D’UNE VARIABLE Sur une VA Quantitative, On distingue les mesures de paramètres de :  Position: On calcule un paramètre résumant un ensemble de données:  Moyenne : m (population) ou X (échantillon)  Médiane  Mode  Dispersion: Comment les données se distribuent autour d'un paramètre de position:  Variance (V= s2 )  Ecart-type (SD = Standard Deviation) : s (échantillon) et  population)  Etendue ou Plage (E ou ) = Maximum – Minimum  Coefficient de variation (CV) = s/m  Ecart Moyen absolu ou Ecart median absolu  Quartiles (25%-30%-75%) ou Percentiles 1%-10%-20%...) CARACTÉRISTIQUES DE TENDANCE CENTRALE/ OU DE POSITION Elles permettent de déterminer une valeur centrale autour de laquelle des données ont tendance à se rassembler. Il s’agit de résumer à travers quelques indicateurs numériques ou paramètres caractéristiques la distribution d’une variable statistique. Les caractéristiques ou indicateurs de tendance centrale d’une série statistique sont : : a. Le mode b. La moyenne : c. La médiane a. Le mode d’une s é r i e s t a t i s t i q u e Mode encore appelé valeur dominante ou valeur plus fréquente du caractère : Le mode est la valeur du caractère correspondante au plus grand effectif ou à la plus grande fréquence Dans le cas d’une variable quantitative continue, la classe modale est la classe(intervalle) qui présente l’effectif le plus élevé.le mode est alors le centre de cette classe. a. LE MODE D’UNE SÉRIE STATISTIQUE Une distribution est unimodale si elle présente un maximum marqué, et pas d'autres maxima relatifs. La lecture s’effectue sur le diagramme en bâtons ou l'histogramme. 100 140 90 80 120 70 100 60 80 50 60 40 30 40 20 20 10 0 0 0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 ou plus... Mode Mode Classe modale Le mode correspond à l'abscisse du maximum, c.à.d. lavaleur la plus fréquente a. LE MODE D’UNE SÉRIE STATISTIQUE LE MODE Ex. : État matrimonial/un seul mode Mode a. LE MODE D’UNE SÉRIE STATISTIQUE il peut y avoir un ou plusieurs modes Ex. modes a. LE MODE D’UNE SÉRIE STATISTIQUE EXP DANS LE CAS D’UN CARACTÈRE QUALITATIF Tableau: Évaluation d’un programme de formation Appréciation f pourcentage Excellent 15 11.1 mode Très bon 47 34.8 Bon 34 25.2 Acceptable 29 21.5 Médiocre 10 7.4 Total 135 100 a. LE MODE D’UNE SÉRIE STATISTIQUE EXP DANS LE CAS D’UN CARACTÈRE QUANTITATIF DISCRET : ON PARLE DU MODE DE LA SÉRIE Nombre d’enfants Nombre de familles par famille (xi) (ni) Lemodede cette sérieest 1 8 2. 2 9 L’effectif correspondantà 3 6 ce modeest9. C’est le plusgrand. 4 4 5 2 6 1 TOTAL N = 30 a. LE MODE D’UNE SÉRIE STATISTIQUE DANS LE CAS D’UNE VARIABLE QUANTITATIVE CONTINUE ON PARLE DE CLASSE MODALE Classes Effectifs ni Centre des classes xi [155;160[ 2 157,5 [160;165[ 2 162,5 [165;170[ 4 167,5 [170;175[ 6 172,5 [175;180[ 7 177,5 [180;185[ 6 182,5 [185;190[ 3 187,5 N =30  La classe modale est [175 ; 180[  L’effectif correspondant est 7 a. Le mode d’une s é r i e s t a t i s t i q u e CLASSE MODALE Ex. : Poids à la naissance Nombre d’enfants [1000-1500[ 1 [1500-2000[ 2 [2000-2500[ 7 [2500-3000[ 30 [3000-3500[ 64 mode [3500-4000[ 43 [4000-4500[ 11 [4500-5000[ 2 Total 160 b. LA MOYENNEARITHMÉTIQUE b. LA MOYENNEARITHMÉTIQUE Moyenne a r i t h m é t i q u e simple b. LA MOYENNEARITHMÉTIQUE Moyenne a r i t h m é t i q u e simple EXEMPLE DE MOYENNE ARITHMÉTIQUE SIMPLE À partir de données brutes Âge de 7 répondants : 21, 32, 25, 26, 29, 22, 27 x = 21 + 32 + 25 + 26 + 29 + 22 + 27 = 26 7 Pour cet échantillon, l’âge moyen est de 26 ans b. LA MOYENNEARITHMÉTIQUE Moyenne a r i t h m é t i q u e p o n d é r é e b. LA MOYENNEARITHMÉTIQUE Moyenne a r i t h m é t i q u e p o n d é r é e EXEMPLE DE MOyENNE D’UNE VARIABLE QUANTITATIVE DISCRÈTE : Note obtenue Nombre n i×x i (x i ) d'élève(n i ) 3 4 12 5 6 30 Note moyenne des élèves 6 8 48 8 10 80 9 12 108 928 x 9,76 10 15 150 11 15 165 12 13 10 5 120 65 95 14 4 56 15 3 45 16 2 32 17 1 17 Total 95 928 b. LA MOYENNEARITHMÉTIQUE Moyenne a r i t h m é t i q u e p o n d é r é e EXEMPLE DE MOyENNE D’UNE VARIABLE QUANTITATIVE CONTINUE Classe Nombre Fréquences en Centre de d'âge d'internautes n i % classe x i n i xi [10; 20[ 230 50,00 15 3450 [ 20; 30[ 92 20,00 25 2300 [30; 40[ 83 18,00 35 2905 [40; 50[ 55 12,00 45 2475 Total 460 100,00 11130 Calcul de l’âge moyen n 1 x 1  n 2 x 2  n 3 x 3 ...  n p x p x  N 11130 x   24 460 1- Paramètres de Position ou de tendance entraleC  1-1 Moyenne arithmétique (il existe d’autres moyennes !!!) n x   xi 1 Série statistique (S.S) n i1 1 p x   ni xi Distribution de fréquence (d.f) n i1 Données groupées en classe  1-1 Moyenne arithmétique Prenons la température moyenne du mois de décembre sur la ville de Bangkok depuis 31 ans en degré Celsius: 22, 24, 21, 22, 25, 26, 25, 24, 23, 25, 25, 26, 27, 25, 26, 25, 26, 27, 27, 28, 29, 29, 29, 28, 30, 29, 30, 31, 30, 28, 29. n x   xi 1 n i1 1 p x   ni xi n i1 1- Paramètres de Position ou de tendance Centrale  1-1 Moyenne arithmétique : Propriétés 1 Somme des écarts par rapport à la moyenne est nulle n n  (x  x)   x  nx nx  x  nx  0 i i i1 i1 2 La moyenne d’une transformée linéaire est la transformée linéaire de la moyenne Si par exemple quelqu’un d’un pays anglo-saxon préfère avoir les températures de Bangkok en degré F, nous aurons une nouvelle moyenne en effectuant une transformation linéaire: T en °F = 32 + 1,8* T en °C soit 32 +1,8 * 26,48 = 79,7°F  1-1 Moyenne arithmétique : Propriétés 3- La moyenne générale n’est pas forcément égale à la moyenne des moyennes. Cette règle n’est vraie que si les effectifs sur les quels ont été calculé les moyennes sont égaux C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE  Valeur de la variable qui spare une série d’observations en deux groups comportant le même nombre d’observations ou la même frequence.  La classe médiane est celle dont la fréquence cumulée est  50 % et dont la classe précédente a une fréquence cumulée  50 %.  50 % des éléments ont des valeurs de X supérieures à X méd et 50% ont des valeurs inférieures C. La médiane d’une s é r i e s t a t i s t i q u e MÉTHODE DE CALCUL DE LA MÉDIANE  Présenter les données sous forme de série  Ordonner la série par ordre croissant ou décroissant  Déterminer si la série comprend un nombre pair ou impair d’unités statistiques C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE MÉTHODE DE CALCUL DE LAMÉDIANE C. La médiane d’une s é r i e s t a t i s t i q u e MÉTHODE DE CALCUL DE LAMÉDIANE Les valeurs observées doivent être rangées par ordre croissant. La médiane M est la valeur du milieu de la série d’observations, c.à.d. telle qu'il y ait autant d'observations "au-dessous" que "au-dessus". m e d  x n1  x n   x n  1    med       2    2   2  2 Pour n impair Pour n pair Nombre impair d’observations Nombre pair d’observations 3 4 4 5 6 8 8 9 10 3 4 4 5 6 8 8 9 4 4 4 4 M valeurs valeurs valeurs valeurs Intervalle médian M = milieu = 5,5 C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE CALCUL DE LA MÉDIANE: EXEMPLE NIMPAIR Salaire de 5 employés d’une entreprise  La médiane est donnée par la valeur de l’observation de rang (N+1)/2 = (5+1)/2 = 3 Données brutes rang Scores ordonnés 41 500 1 41 500 64 750 5 42 000 42 000 2 42 500 42 250 3 55 000 55 000 4 64 750 C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE CALCUL DE LA MÉDIANE: EXEMPLE NPAIR Salaire de 6 employés d’une entreprise  La médiane est la moyenne des 2 scores centraux Données brutes Scores ordonnées 41 500 41 500 64 750 42 000 42 000 42 250 42 250 + 55 000 42 250 55 000 2 55 000 58 550 = 48 625 58 550 64 750 C. La médiane d’une s é r i e s t a t i s t i q u e CALCUL DE LA MÉDIANE À PARTIR D'UN TABLEAU : Exemple 3: S a l a i r e d’une e n t r e p r i s e Président 1 48 000 Vice-président 1 20 000 Directeur 6 5 000 Contremaître 5 4 000 Employé 10 2 000 C. La médiane d’une s é r i e s t a t i s t i q u e CALCUL DE LA MÉDIANE À PARTIR D'UN TABLEAU : Exemple 3: S a l a i r e d’une e n t r e p r i s e Président 1 48 000 Vice-président 1 20 000 Directeur 6 5 000 médiane Contremaître 5 4 000 Employé 10 2 000 mode Pour la médiane: N = 23 → (N+1)/2 = 12 Pour la moyenne (1*48000) + (1*20000) + (6*5000) + (5*4000) + (10*2000) = 6 000 23 C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE CALCUL DE MÉDIANE À PARTIR D'UN TABLEAU : Exemple 4:cas d »une v a r i a b l e q u a n t i t a t i v e d i s c r è t e Quelle est la médiane de la série suivante ? Valeur 12 14 20 25 43 47 Effectif 5 7 14 5 2 32 C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE CALCUL DE MÉDIANE À PARTIR D'UN TABLEAU : Exemple 4:cas d »une v a r i a b l e q u a n t i t a t i v e d i s c r è t e Quelle est la médiane de la série suivante ? Valeur 12 14 20 25 43 47 Effectif 5 7 14 5 2 32 → On commence par calculer l'effectif total : 5 + 7 + 14 + 5 + 2 + 32 = 65 → (65+1)/2 = 33, la médiane Me de la série est donc la 33ème valeur, donc : Me = 43 C. La médiane d’une s é r i e s t a t i s t i q u e CALCUL DE MÉDIANE À PARTIR D'UN TABLEAU : Exemple 5: c a s d »une v a r i a b l e q u a n t i t a t i v e CONTINUE Si la variable est continue ( regroupement par intervalle des résultats ) le calcul de la médiane se fait autrement : Utilisons la colonne des effectifs cumulés pour déterminer la médiane : 50 % de l'effectif total c'est 25, la médiane est ici la note correspondant à l'effectif cumulé 25.  D'après la colonne "effectif cumulé" : 18 personnes ont moins de 8 30 personnes ont moins de 12 La médiane se trouve donc dans l'intervalle [8;12[ ( appelée classe médiane ) on va la déterminer par interpolation linéaire. C. La médiane d’une s é r i e s t a t i s t i q u e CALCUL DE MÉDIANE D'UNE SÉRIE CONTINUE: Les points A, M, B sont alignés ce qui se traduit par les droites (AM). et (AB) ont même coefficient directeur (ou on utilise le théorème de Thalès dans le triangle bleu ) : La médiane est environ 10,33 50 % environ des personnes ont eu moins de 10,33 et 50 % plus de 10,33. C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE Un avantage de la médiane est qu’elle n’estpasaffectée par les valeurs extrêmes Série A Série B Série C 51 10 51 52 52 52 54 54 54 médiane 55 55 55 56 56 56 56 56 56 59 59 100  1-2 Médiane La médiane est une valeur telle que l'effectif des observations lui sont inférieures ou égales et l’autre moitié des observations lui sont supérieures ou égales. Elle partage une série statistique x1, … xn en 2 sous-séries de taille égale. Cette valeur est notée 𝒙0,5 Cette définition n'a de sens que si les observations sont ordonnées La médiane n'est donc pas influencée par les observations aberrantes. Sa méthode de calcul dépend du nombre d’observations Si n impair Si n pair médiane = moyenne = 5,5 1 2 3 4 5 6 7 8 9 10 médiane =5,5 1 2 4 5 6 7 8 9 15 3 moyenne =6,0 5 3 Les Valeurs extrêmes sont sans effets sur la médiane mais affectent la moyenne Moyenne et Médiane (effet des valeurs extrêmes) Moyenne = 207,2 1030/1036 = 99,42% de la masse salariale  La médiane peut se révéler plus utile que la moyenne  Ecart entre la moyenne et la médiane indique la dissymétrie de la distribution Si nous traitons des données groupées, nous pouvons calculer la médiane en supposant que les valeurs au sein de chaque classe sont également réparties. Soit K1, K2,..., Kk des classes k avec des observations de taille n1, n2,..., nk , respectivement. Tout d’abord, nous devons déterminer quelle classe est la classe médiane, c’est-à-dire la classe qui inclut la médiane. Nous définissons la classe médiane comme la classe Km pour laquelle Et donc nous pouvons déterminer la médiane comme avec em-1 la limite inferieure de la classe Km et dm la largeur de la classe. f désigne la fréquence Pour la 3ème classe , nous avons : Et donc le calcul de la moyenne donne : C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE C. LA MÉDIANE D’UNE SÉRIE STATISTIQUE Intervalle inter-quartile = [Quartile à 25% Quartile à 75%] Les quintiles: Ils divisent la série en cinq sous-ensembles de tailles égales, soit 20%.Ils sont au nombre de quatre Les déciles : Ils divisent la série en dix sous-ensembles de tailles égales, soit 10% Les centiles : Ils divisent la série en cent sous-ensembles de 1% d. Les q u a r t i l e s QUARTILES Decoupage échantillon en 4 parties 25% 25% 25% 25%  Q1  Q2  Q3  Median i n 1 e Si n est. impair Position du i ème Quartile Qi   4 Données ordonnées : 11 12 13 16 16 17 18 21 22 19 1 1213 Position of Q1   2.5 Q1   12.5 4 2 Si n est pair Position du i ème Quartile est ni/4 RESUME: DESTRUBITION NORMALE COURBE SYMÉTRIQUE Dans les distributions en cloche, uni -modales symétriques, mode, médiane et moyenne sont confondus. Me Moyenne=Médiane=Mode Mo 5. P a r a m è t r e s d e dispersion Etendu Va r i a n c e Écart type 5. P a r a m è t r e s d e dis pe r s io n a. E t e n d u e D’UNE SÉRIE STATISTIQUE L’étendue d’une série statistique est la différence entre la plus grande et la plus petite valeur du caractère. Etendue : R = xmax - xmin Amplitude = Étendue 1 Etendue (Plage ou Amplitude) Etendue (ω) de X : Différence entre la plus grande valeur de X et la plus petite valeur de X ω = x max – x min souvent utilisé dans les contrôles de fabrication, pour lesquels on donne, a priori, des marges de construction. Son intérêt est limité par le fait qu'il dépend uniquement des valeurs extrêmes, qui peuvent être des valeurs aberrantes. 5. P a r a m è t r e s d e dis pe r s io n B. VARIANCE D'UNE POPULATION  Variance (d'une variable Xi dans une population de taille N) est =  moyenne des carrés des écarts des valeurs par rapport à la moyenne N  de la population. ( x i  x )2  2  i 1 N  La formule précédente se rapporte à des données brutes. Pour une distribution de fréquence, il faut : n (x  x)  n (x  x)  n (x  x) ... n (x  x) 2 2 2 2 V 1 1 2 2 3 3 p p N 5. P a r a m è t r e s d e dispe r sio n B. VARIANCE D'UNE POPULATION Classe Effectif Centre de classe x i (x  x )2 n (x x)2 i i i [0 ; 6[ 2 3 237,2 474,3 [6 ; 12[ 14 9 88,4 1237,0 [12 ; 18[ 5 15 11,6 57,8 [18 ; 24[ 2 21 6,8 13,5 [24 ; 30[ 10 27 74,0 739,6 [30 ; 36[ 6 33 213,2 1279,0 Total 39 3801,2 n (x  x )  n (x  x )  n (x  x) ...  n (x  x ) 2 2 2 2 V 1 1 2 2 3 3 p p N 3 801,2 V= 97,5 39   V 9 7 , 5  1 0 cm 5. P a r a m è t r e s d e dis pe r s io n C.VARIANCE D'UN ÉCHANTILLON Variance (d'une variable Xi dans un échantillon de taille n) est = La somme des carrés des écarts des valeurs à la moyenne de l'échantillon, ramenée au nombre de degrés de liberté de l'échantillon (n-1, si n est l'effectif de l'échantillon). n  (x i  x) 2 Et non n! s 2x  i 1 n 1 5. P a r a m è t r e s d e dis pe r s io n Variance en résumé Population Échantillon n  i N ( X  2 i  X) 2 (x x)   2 i 1 s 2x  i 1 X N n 1 5. P a r a m è t r e s d e dis pe r s io n D. L'ÉCART TYPE: Il mesure la répartition des valeurs de la variable autour de la moyenne ; Il est égal à la racine carrée de la variance. Écart-type :  V  lire sigma; avec V : variance Pour calculer l'écart - type, on calcule d'abord la variance V. Puis on calcule l'écart – type σ par la formule:  V 5. P a r a m è t r e s d e dispe r sio n D. L ' é c a r t t y p e : Écart-type = racine carrée de la variance (homogène à une valeur) Population Échantillon   2 s x  s 2x Plus l’écart – type σ est grand, plus les valeurs du caractère sont dispersées autour de la moyenne Plus il est petit, plus les valeurs du caractère sont groupées autour de la moyenne 2- Paramètres de Dispersion  Ecart ou Déviation On appelle écart ou déviation (D) des valeurs par rapport à une valeur A la moyenne des valeurs absolues des écarts. 2-2 Ecart ou Déviation moyenne absolue On appelle Ecart absolu moyen ou Déviation absolue moyenne de X, la moyenne arithmétique des valeurs absolues des écarts de X à sa moyenne 2-3 Ecart ou Déviation médiane absolue On appelle Ecart absolu médian ou Déviation médiane absolue de X la moyenne arithmétique des valeurs absolues des écarts de X à sa médiane 2- Paramètres de Dispersion NB : la valeur absolue est un moyen d’éviter l’annulation des écarts par rapport à la moyenne n  (x  x)  0 i i1 2-4 Variance NB : Un autre moyen d’éviter l’annulation des écarts car par rapport à la moyenne est d’utiliser le carré des écarts. Ceci permet d’avoir la variance On appelle variance de X, notée 2(X) ou S2 x la moyenne arithmétique des carrés des écarts de X à sa moyenne 1 n (x1  x) 2  (x 2  x) 2 ...  (x n  x) 2  var(x)   ( x i  x )  2 n i1 n d.f Moyennant un développement, cette quantité peut également s’écrire  Propriétés de la Variance 1La variance 2(X) est toujours un nombre réel positif. C'est la moyenne de la Somme de Carrés des Ecarts (SCE). 2 La variance est nulle si, et seulement si, X possède une seule valeur. 3 Pour une transformée linéaire y = a + bx ; s2y = s2 (a + b X) = b2 s2 (X), quels que soient les nombres réels a et b (b ≠ 0), la variance est affectée par une transformation de pente et pas d’origine 2- Paramètres de Dispersion 2-5 Déviation Standard (DS) ou Ecart –type On appelle écart-type de X ou Déviation standard de X la racine carrée  (X) ou Sx de la variance de X. L’écart-type a la même unité de mesure que les données alors que l’unité de la variance est le carré des unités des observations (ce qui peut être plus difficile à interpréter). L’écart-type est généralement préféré pour un résumé descriptif de la dispersion des données. L’écart-type mesure à quel point les observations varient ou comment elles sont dispersées autour de la moyenne arithmétique. Une faible valeur de l’écart-type indique que les valeurs sont fortement concentrées autour de la moyenne. Une valeur élevée de l’écart-type indique une concentration plus faible des observations autour de la moyenne, et certaines des valeurs observées peuvent même être éloignées de la moyenne. S’il y a des valeurs extrêmes ou des valeurs aberrantes dans les données, la moyenne arithmétique est plus sensible aux valeurs aberrantes que la médiane. Dans un tel cas, l’écart médian absolu peut être préféré à l’écart-type. Paramètres de Dispersion 2-6 Quantiles (Quartiles, Quintiles, Déciles et percentiles) Pour une variable statistique quantitative réelle continue X, on appelle Quartiles les nombres réels Q1, Q2, Q3, pour lesquels les fréquences cumulées F(x) = fonction de répartition de X sont respectivement 0,25 ; 0,50 et 0,75. Les quartiles partagent l'étendue en quatre intervalles qui ont le même effectif. o 1er (Q1 =25%) : 25 % des observations lui sont inférieurs ou égales et 75% lui sont supérieures o 2ème (Q2=50%) = Médiane 3ème (Q3) : 75 % des observations inferieurs ou égales et 25 % supérieurs NB: * On utilise également parfois les Déciles: au nombre de 9 (D1 à D9), ce sont les nombres réels qui partagent l'étendue en dix intervalles de même effectif. Utilisation : en matière de salaires, le rapport D9/D1 est un paramètre de dispersion fréquemment utilisé pour comparer les revenus et des plus pauvres aux plus riches et avoir une idée sur les inégalités sociales * ou des Centiles (au nombre de 99) on divise l’étendue en 100 tranches égales * ou des quintiles (20%)  Représentation graphique des Quartiles = Box Plot C’est une façon de représenter des quantités énormes de données par une simple illustration en boite. Il est intéressant d’utiliser les box-plot lorsqu’on désire visualiser des concepts tels que La symétrie La dispersion ou la centralité de la distribution des valeurs associées à une variable. Ils sont aussi très intéressant pour comparer des variables basées sur des échelles similaires et pour comparer les valeurs des observations de groupes d’individus sur la même variable exemple : taille des individus de sexe masculin et féminin de la LST. Comparaison d e s 2 s é r i e s s t a t i s t i q u e s P a r a m è t r e s du t a b l e a u 1 Classes Effectifs ni [2; 4[ 8 [4; 6[ 15 [6; 8[ 18 [8; 10[ 11 [10;12[ 14 [12; 14[ 13 Total Comparaison d e s 2 s é r i e s s t a t i s t i q u e s P a r a m è t r e s du t a b l e a u 1 Classes Centres xi Effectifs ni Effectifs Produits ni xi xi  x n ( x  x )2 i i cummulé [2; 4[ 8 8 [4; 6[ 15 23 [6; 8[ 18 41 [8; 10[ 11 52 [10;12[ 14 66 [12; 14[ 13 79 Total 79 Comparaison d e s 2 s é r i e s s t a t i s t i q u e s P a r a m è t r e s du t a b l e a u 1 Classes Centres xi Effectifs ni Produits ni xi xi  x n ( x  x )2 i i [2; 4[ 3 8 24 5,2 216,32 [4; 6[ 5 15 75 3,2 153,6 [6; 8[ 7 18 126 1,2 25,92 [8; 10[ 9 11 99 0,8 7,04 [10;12[ 14 154 2,8 109,76 11 [12; 14[ 13 13 169 4,8 299,52 Total 79 647 812,16 Comparaison d e s 2 s é r i e s s t a t i s t i q u e s P a r a m è t r e s du t a b l e a u 1 Calcul de la moyenne: n  n i x i  6 4 7  8 , 2 x  i  1 N 7 9 Calcul de la variance: n  n i ( x i  x ) 2 8 1 2 ,1 6 V  i 1   1 0 , 3 N 7 9 Calcul de l’écart type:   V  10, 3  3, 2 Cas 1 Cas 2 Cas 3 X Effectifs Classes Effectifs ni X ni 4 [2; 4[ 11 4 11 6 17 [4; 6[ 17 6 8 20 [6; 8[ 20 8 10 15 [8; 10[ 15 10 12 9 [10; 12[ 9 12 25 7 [12; 14[ 7 25 Tota Total l Comparaison d e s 2 s é r i e s s t a t i s t i q u e s P a r a m è t r e s du t a b l e a u 2 Classes Centres xi Effectifs ni Produits ni xi xi  x n (x  x ) 2 i i [2; 4[ 3 11 33 4,4 212,96 [4; 6[ 5 17 85 2,4 97,92 [6; 8[ 7 20 140 0,4 3,2 [8; 10[ 9 15 135 1,6 38,4 [10; 12[ 11 9 3,6 116,64 99 [12; 14[ 13 7 91 3,6 219,52 79 583 688,64 Total Comparaison d e s 2 s é r i e s s t a t i s t i q u e s P a r a m è t r e s du t a b l e a u 2 Calcul de la moyenne: n  n x  5 8 3 i i  7 , 3 8 x  i  1 N 7 9 Calcul de la variance: n  n i ( x i  x ) 2 6 8 8 , 6 4 V  i  1   8 , 7 N 7 9 Calcul de l’écart type:   V  8, 7  2, 9 5 Comparaison d e s 2 s é r i e s s t a t i s t i q u e s CONCLUSION Série 1:   V  10, 3  3, 2 Série 2:   V  8, 7  2, 9 5 Les valeurs de la série 2 sont plus regroupées autour de la moyenne puisque son écart type est plus petit que celui de la série 1. 3. REPRESENTATIONS GRAPHIQUES D’UNE VARIABLE STATISTIQUE A. LES DIAGRAMMES CIRCULAIRES Le diagramme circulaire est un cercle dont la surface est divisée en tranches représentant les catégories de la variable et ou chaque tranche est proportionnelle à l’effectif de la catégorie qu’elle représente  Principalement utilisé pour les variables nominales avec un petit nombre de catégories Vert Bleu 13% 20% Noisette Modalités Effectifs Fréquences % 13% Bleu 60 0.200 20,0 Noir 160 0,533 53,3 Noisette 40 0,133 13,3 Noir Vert 40 0,133 13,3 54% Total : 300 1 100 Diagramme circulaire B. LES DIAGRAMMES A BANDES/EN BARRES Il est constitué de bandes rectangulaires représentant les catégories de la variable ,chaque bande est proportionnelle à l’effectif de la catégorie qu’elle représente  Généralement utilisé pour représenter la répartition des variables qualitatives avec de nombreuses catégories 180 160 160 Modalités Effectifs Fréquences % 140 Bleu 60 0.200 20,0 120 Noir 160 0,533 53,3 100 80 Noisette 40 0,133 13,3 60 60 40 40 Vert 40 0,133 13,3 40 Total : 300 1 100 20 0 B le u N o ir Noisette V e rt B. LES DIAGRAMMES A BA NDES/ EN BA RRES Modalités Effectifs = Nombre de personnes Les modalités Pas du tout (A) 10 sont présentées Un peu (B) 25 Beaucoup (C) 40 dans l’ordre Passionnément (D) 32 A la folie (E) 23 45 40 40 130 personnes ont été 35 32 interrogées sur leur 30 25 addiction à l’internet 25 23 20 15 10 10 5 0 A B C D E Figure: addiction à l’internet D. DIAGRAMME EN BÂTONS C’est une représentation graphique des effectifs ou des fréquences dans laquelle ,on indique:  en abscisse les valeurs de la variable étudiée  en ordonnée les effectifs ou les fréquences  Généralement utilisé pour représenter la répartition des variables quantitatives discrètes. D. DIAGRAMME EN BÂTONS Variables quantitative discrète et effectif absolu ourelatif. fi ni  f 1 i n i n f3 n3 f2 n2 f1 n1 x1 x2 x3 xm x1 x2 x3 xm 55 D. DIAGRAMME EN BÂTONS Préférentiellement pour des variables discrètes E. L’HISTOGRAMME L’histogramme est utilisé pour représenter graphiquement la distribution d’une variable continue groupées en différentes classes de données  Un histogramme est constitué de rectangles collées ayant pour base l’amplitude des classes et dont les aires sont proportionnelles aux effectifs ( ou aux fréquences).  Le choix de la largueur des bandes influence la lisibilité de la représentation Histogramme pour une variable continue HISTOGRAMME :EXEMPLE Dose en Pour cela: Nombre de  a. mci patients Porter en abscisses les doses en mci [40; 42[ 8 de 40 à 50(commencer la graduation à 40). [42; 44[ 12  b. Porter en ordonnées les effectifs. [44; 46[ 21  c. Construire l’histogramme [46; 48[ 6 correspondant à la série statistique. [48; 50[ 3 Total 50 HISTOGRAMME :EXEMPLE Histogramme des effectifs 24 22 21 20 18 16 [40; 42[ Nombre des patients 14 [42; 44[ 12 [44; 46[ 12 [46; 48[ 10 [48; 50[ 8 8 6 6 4 3 2 Dose en mci 0 [40; 42[ [42; 44[ [44; 46[ [46; 48[ [48; 50[ E. POLYGONES DES EFFECTIFS CUMULÉS Effectif DOSE en Nombre de Effectif cumulé cumulé mci malades décroissant croissant [40; 42[ 8 8 50 [42; 44[ 12 20 42 [44; 46[ 21 41 30 [46; 48[ 6 47 9 [48; 50[ 3 50 3 Total 50 E. POLYGONES DES 55 EFFECTIFS CUMULÉS 50 45 40 35 Effectifs cumulés 30 25 20 15 10 5 Dose en mci 0 40 42 44 46 48 50 52 Polygones des effectifs cumulés Paramètres de Dispersion 2-6 Quantiles (Quartiles, Quintiles, Déciles et percentiles) Pour une variable statistique quantitative réelle continue X, on appelle Quartiles les nombres réels Q1, Q2, Q3, pour lesquels les fréquences cumulées F(x) = fonction de répartition de X sont respectivement 0,25 ; 0,50 et 0,75. Les quartiles partagent l'étendue en quatre intervalles qui ont le même effectif. o 1er (Q1 =25%) : 25 % des observations lui sont inférieurs ou égales et 75% lui sont supérieures o 2ème (Q2=50%) = Médiane 3ème (Q3) : 75 % des observations inferieurs ou égales et 25 % supérieurs NB: * On utilise également parfois les Déciles: au nombre de 9 (D1 à D9), ce sont les nombres réels qui partagent l'étendue en dix intervalles de même effectif. Utilisation : en matière de salaires, le rapport D9/D1 est un paramètre de dispersion fréquemment utilisé pour comparer les revenus et des plus pauvres aux plus riches et avoir une idée sur les inégalités sociales * ou des Centiles (au nombre de 99) on divise l’étendue en 100 tranches égales * ou des quintiles (20%)  Représentation graphique des Quartiles = Box Plot C’est une façon de représenter des quantités énormes de données par une simple illustration en boite. Il est intéressant d’utiliser les box-plot lorsqu’on désire visualiser des concepts tels que La symétrie La dispersion ou la centralité de la distribution des valeurs associées à une variable. Ils sont aussi très intéressant pour comparer des variables basées sur des échelles similaires et pour comparer les valeurs des observations de groupes d’individus sur la même variable exemple : taille des individus de sexe masculin et féminin de la LST. Valeurs extrêmes “Outliers” (valeurs * aberrantes!) Valeur maximale min(max(x),Q3+1,5(Q3-Q1)) Variable quantitative ( ex :Age) 3ème quartile (Q3) Intervalle Interquartiles * 2ème quartile (Q2) =Médiane IQR =[Q3 - Q1] = 50% des observations)* 1er quartile (Q1) Valeur minimale max(min(x),Q1-1,5 (Q3-Q1)) Représentation graphique des Quartiles = Box Plot (on les appelle également diagramme en boite ; diagramme de Tukey et Boite à moustache)  Représentation graphique des Quartiles = Box Plot La figure montre un diagramme typique. La longueur verticale de la boîte est la plage Interquartile qui contient 50 % des données. L’extrémité inférieure de la boîte fait référence au premier quartile et l’extrémité supérieure de la boîte fait référence au troisième quartile. La ligne épaisse dans la boîte est la médiane ou deuxième quartile. Il devient immédiatement clair que la boîte indique la symétrie des données: si la médiane est au milieu de la boîte, les données doivent être symétriques, sinon elles ne le sont pas. Les moustaches à la fin du tracé marquent les valeurs minimales et maximales des données. L’examen du diagramme en boîte dans son ensemble nous renseigne sur la distribution des données, ainsi que sur la portée et la variabilité des observations. Parfois, il peut être conseillé de comprendre quelles valeurs sont extrêmes dans le sens où elles sont « éloignées » du centre de la distribution. Dans de nombreux progiciels, les valeurs sont définies comme extrêmes si elles sont supérieures à 1,5 fois la longueur de la boîte IQR. NB : on les appelle des valeurs aberrantes. Les valeurs aberrantes et les valeurs extrêmes sont parfois définies différemment dans certains progiciels et livres. Représentation graphique des Quartiles sur SPSS (Box Plot =Diagramme en boite = diagramme de Tukey) (Boite à moustache) SPSS : 2 voies Graphiques - Générateurs de graphiques - Boites à moustache – chois de l’axe ds X (Var. Qualitative) et l’axe des Y (Var. Quantitative) Graphiques - Sélecteurs de mode de représentation graphiques - choix de 2 var(1 Qualitative + Quantitative) Ok Graphiques _ Générateurs de graphique_ choix du modèle à appliquer _ Choix des axes : 1 ou 2 axes ) - 1 axe : Variable quantitative (axe des Y) ; - 2 axes (axe X var. Qualitative ss Axe Y : Var. Quantitative 1 seule variable : ex taille Graphiques _ Générateurs de graphique_ choix du modèle à appliquer _ Choix des axes : 1 ou 2 axes ) Valeur aberrante - 1 axe : Variable qualitative (axe des Y) ; Outlier - 2 axes (axe X var. Qualitative ss Axe Y : Var. Quantitative 2 variables : taille & sexe Box Plot comparatif de taille en fonction du sexe ( F et M) Graphiques _sélecteur de mode de représentation graphiques _ choix du modèle à appliquer et des variables _ Ok Poids =f (sexe) Valeur aberrante Outlier 2 variables: On étudie la variable Taille en fonction (VA Qt.) de la variable sexe (VA Ql.) Variable dépendante vs indépendante / explicative vs à expliquer/ endogènes vs exogène La variable Qualitative est dite Facteur Graphiques _sélecteur de mode de représentation graphiques Autres représentations _ choix du modèle à appliquer et des variables _ Ok graphiques Diagramme en boite Diagramme en barre Box Pot Bart Chart Nuage de Points Scatter Plot RESUME VARIABLE QUALITATIVE VARIABLE QUANTITATIVE Nominale Ordinale Discrète Continue Effectifs ou Fréquences Effectifs ou Fréquences Diagramme en barres Histogramme Diagramme en Diagramme en bâtons barres Diagramme circulaire Modalités dans ordre Courbes cumulatives Une seule variable aléatoire Nominale Ordinale Quantitative ♪ Diagramme en bâtons ♪ Diagramme en bâtons ♪ Histogramme ♪ Diagramme rond ♪ Diagramme rond ♪ Box Plot ♪ Tableau des fréquences ♪ Tableau des fréquences ♪ Kernel denstity Plot ♪ Box Plot ♪ ECDF ♪ ECDF (Empirical Cumulative  Mode Distribution Frequence)  Mode  Médiane  Quartiles  Mode  IQR  Médiane  Variance  Quartiles  Déviations moyenne ou  IQR médiane L’analyse statistique descriptive permet donc de décrire et synthétiser pour faire émerger l’Information contenue dans les données. 1-Observer (Les différents types de Variables ) 2-Décrire :  Tableaux statistiques : Série statistiques ; distribution de fréquences, données groupées, tableaux croisés ou de contingence Calcul de paramètres de position et de dispersion : moyenne, mode, variance….  Outil graphique : Box Plot ; Diagramme rond ou de section (camemberts) Histogrammes, Diagramme bâtons ; Courbes , nuage de points (Scatter Plot) 3-Constater : Comparer une ou plusieurs variables ( ex : Taille) sur une ou plusieurs catégories (filles & garçons)

Use Quizgecko on...
Browser
Browser