Bases pour l'analyse descriptive et inférentielle (BASDI) PDF

Summary

This document is a lecture on statistical analysis, specifically descriptive and inferential statistics. It contains an overview of the BASDI course content and covers topics such as tables, graphs, and statistical indices. There are also questions which are designed for student comprehension of the given text.

Full Transcript

Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/48 Plan du cours 3/48 Chapitre 1 : statistique descriptive Tableaux de données et représentations graphiques Indice...

Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/48 Plan du cours 3/48 Chapitre 1 : statistique descriptive Tableaux de données et représentations graphiques Indices statistiques (moyenne, mode, écart type, indices quantiles, note z, note u,..) Corrélation paramétrique – aspects descriptifs 4/48 Chapitre 2: statistique inférentielle Notions de probabilités et distributions théoriques (normale et binomiale) Échantillonnage Intervalles de confiance Tests statistiques (F de Snédécor, t de Student) 5/48 1. Statistique descriptive (Descriptive statistics) 6/48 A. Objectif 1: organiser et présenter les données recueillies lors d’une expérimentation, d’une enquête ou d’une observation → tableaux, représentations graphiques B. Objectif 2: caractériser l’ensemble des données par une valeur numérique → Indices statistiques 7/48 Tableaux de données 8/48 Hommes Femmes Haïti 60 66 Rép. Dom. 69 76 Jamaïque 68 73 Belgique 80 84 Norvège 82 85 RDC 57 65 Tableau 1 : espérance de vie à la naissance (2021) hommes/femmes – en années (source: worldbank, 2023) 9/48 Questions 1. Qui a la plus grande espérance de vie? Les hommes ou les femmes? 2. Cette constatation est-elle valable pour tous les pays présentés dans le tableau? 3. Dans quel pays les femmes ont-elles l’espérance de vie la plus courte? 4. Dans quel pays les hommes ont-ils l’espérance de vie la plus longue? 5. De combien est l’espérance de vie pour les femmes en Belgique? 10/48 Questions 1. Qui a la plus grande espérance de vie? Les hommes ou les femmes? les femmes 2. Cette constatation est-elle valable pour tous les pays présentés dans le tableau? oui 3. Dans quel pays les femmes ont-elles l’espérance de vie la plus courte? en République Démocratique du Congo (RDC) 4. Dans quel pays les hommes ont-ils l’espérance de vie la plus longue? en Norvège 5. De combien est l’espérance de vie pour les femmes en Belgique? 84 11/48 Le tableau de données permet d’organiser et de présenter les données simplement. Grâce à la légende qui se trouve sous le tableau, chacun peut effectuer une lecture aisée des données. Rmq: les graphiques permettent aussi une présentation aisément lisible des données. 12/48 Femmes Hommes au au au au 01/01/2010 01/01/2020 01/01/2010 01/01/2020 Région 763 829 120 164 flamande Région de 211 225 20 36 Bxl-Capitale Région 399 468 47 72 wallonne Belgique 1.373 1.522 187 272 Tableau 1bis: centenaires par sexe pour les régions et la Belgique, 2010 et 2020 (Source: Statbel, 2020) 13/48 Questions 1. Quel est le sexe pour lequel on recense le nombre de centenaires le plus élevé? 2. Cette constatation est-elle valable pour toutes les régions? 3. Le nombre d’hommes centenaires a-t-il augmenté en 10 ans dans la région wallonne? 4. Le nombre de femmes centenaires a-t-il augmenté en 10 ans dans la région wallonne? 5. Combien y avait-il de femmes centenaires en Belgique au 01/01/2020? 14/48 Questions 1. Quel est le sexe pour lequel on recense le nombre de centenaires le plus élevé? les femmes 2. Cette constatation est-elle valable pour toutes les régions? oui 3. Le nombre d’hommes centenaires a-t-il augmenté en 10 ans dans la région wallonne? oui 4. Le nombre de femmes centenaires a-t-il augmenté en 10 ans dans la région flamande? oui 5. Combien y avait-il de femmes centenaires en Belgique au 01/01/2020? 1522 15/48 Hypothèses explicatives - Seconde guerre mondiale; - plus grande espérance de vie des femmes liée à leur mode de vie (boivent et fument moins, ont tendance à être moins en surpoids, font plus de prévention médicale, suivent mieux leurs traitements quand elles sont malades, auraient tendance à moins prendre de risques, causes génétiques et hormonales). 16/48 Ensembles et tableaux de données 17/48 Une expérience en sciences humaines conduit à recueillir des données à partir de mesures, ou d’observations, effectuées sur les éléments constituant l’ensemble considéré. Ces éléments seront ainsi appelés, selon les cas, objets de mesure ou objets d’observation. Le choix de la méthode statistique dépend d’une part, des caractéristiques de cet ensemble et d’autre part, du type de données recueillies. 18/48 L’ensemble des données peut être constitué d’un seul groupe de données Ensemble homogène (homogeneous population) Ensemble de données recueillies à l’occasion d’une seule prise de mesures et formant ainsi un ensemble homogène Ex.: résultats d’une classe à un test de calcul 19/48 Julie 8 Anna 9 Franco 3 Gaëlle 6 Jules 5 Hassan 8 Lola 9 Tom 3 Dylan 8 Nathan 10 Tableau 2 : résultats au test de calcul (/10) de la classe de 1ère A de l’Ecole Victor Hugo 20/48 de plusieurs groupes de données Ensemble hétérogène (heterogeneous population) Gr. indépendants Gr. appareillés Gr. hybrides 21/48 Groupes indépendants Des groupes sont dits indépendants si, a priori, il n'y a aucune raison d'associer les données d’un groupe à celles de l’autre → Ensemble de données recueillies à l’occasion de deux prises de mesure parallèles et formant ainsi un ensemble hétérogène (ex: résultats de deux classes à un même test de calcul) Le nombre de données du premier groupe peut être différent de celui du second groupe 22/48 Classe de 1ère A Classe de 1ère B Julie 8 Steve 5 Anna 9 Laura 7 Franco 3 Emma 4 Ensemble Gaëlle 6 Kevin 7 hétérogène de Jules 5 Thomas 3 données, constitué Hassan 8 Milo 8 de 2 groupes Lola 9 Leila 6 indépendants Tom 3 Zara 9 Dylan 8 Nathan 10 Tableau 3 : résultats au test de calcul (/10) des deux classes de première année de l’Ecole Victor Hugo 23/48 Groupes appareillés (ou appariés) Des groupes sont dits appareillés (ou appariés) si on peut associer chaque donnée d'un groupe à une seule donnée d'un autre groupe. → Ensemble de données recueillies à l’occasion de deux prises de mesure sur les mêmes sujets et formant ainsi un ensemble hétérogène (ex: les résultats d'une classe à deux examens) Le nombre de données du premier groupe doit être identique à celui du second groupe : on travaille avec des paires de données 24/48 Test de calcul Test de lecture Julie 8 7 Anna 9 8 Franco 3 4 Ensemble Gaëlle 6 7 hétérogène de Jules 5 3 données, constitué de 2 Hassan 8 10 groupes Lola 9 7 appareillés Tom 3 5 Dylan 8 7 Nathan 10 8 Tableau 4 : résultats au test de calcul (/10) et au test de lecture (/10) de la classe de 1ère A de l’Ecole Victor Hugo 25/48 Groupes hybrides Les groupes sont hybrides s'ils possèdent certains éléments communs. Ex. : dans une classe, le groupe des élèves qui pèsent plus de 60 kg et celui de ceux qui mesurent plus de 160 cm. Ce type d’ensemble ne se prête généralement pas aux traitements statistiques. 26/48 Effectif total C’est le nombre d’objets de mesure (donc de données) d’un ensemble; il est noté N Ex: combien vaut effectif du tableau 2? N = 10 Car il y a 10 données 27/48 Notations: voir recueil de formules et tables p. 1 1 groupe 2 groupes 2 groupes indépendants appareillés Nombre d’objets de mesure par groupe 28/48 Classe de 1ère A Classe de 1ère B Julie 8 Steve 5 Anna 9 Laura 7 Franco 3 Emma 4 Gaëlle 6 Kevin 7 Jules 5 Thomas 3 Hassan 8 Milo 8 Lola 9 Leila 6 Tom 3 Zara 9 Dylan 8 Nathan 10 29/48 Classe de 1ère A Classe de 1ère B Ensemble Julie 8 Steve 5 hétérogène de 18 Anna 9 Laura 7 données, constitué Franco 3 Emma 4 de 2 groupes Gaëlle 6 Kevin 7 indépendants (10 Jules 5 Thomas 3 données dans le Hassan 8 Milo 8 premier et 8 Lola 9 Leila 6 données dans le Tom 3 Zara 9 second) Dylan 8 Nathan 10 N = N1+N2 N1 = 10 N2 = 8 N = 18 30/48 Test de Test de calcul lecture Julie 8 7 Anna 9 8 Franco 3 4 Gaëlle 6 7 Jules 5 3 Hassan 8 10 Lola 9 7 Tom 3 5 Dylan 8 7 Nathan 10 8 31/48 Test de Test de calcul lecture Julie 8 7 Anna 9 8 Ensemble Franco 3 4 hétérogène de 20 Gaëlle 6 7 données, constitué Jules 5 3 de 2 groupes Hassan 8 10 appareillés de 10 Lola 9 7 données chacun Tom 3 5 Dylan 8 7 Nathan 10 8 N = Nx + Ny Nx = 10 Ny = 10 N = 20 32/48 Les données sont notées Xi : Julie 8 Anna 9 Franco 3 Gaëlle 6 X1= Jules 5 X3= Hassan 8 X7= Lola 9 X9= Tom 3 Dylan 8 Nathan 10 33/48 Les données sont notées Xi : Julie 8 Anna 9 Franco 3 Gaëlle 6 X1= 8 Jules 5 X3= 3 Hassan 8 X7= 9 Lola 9 X9= 8 Tom 3 Dylan 8 Nathan 10 34/48 Types de données et représentations graphiques 35/48 Pour réaliser des représentations graphiques, il faut pouvoir reconnaître les différents types de données Données métriques Données non métriques – Ordinales par rang (ranked ordinal data) – Ordinales par catégories (grouped ordinal data) – Nominales (nominal data) 36/48 Données métriques Proviennent de mesures (ex.: tailles, poids) ou de comptages (ex: nombre de fautes dans une dictée) Peuvent être situées sur un axe Sont théoriquement continues si elles sont issues de mesures 37/48 tailles Tous les points peuvent théoriquement représenter une donnée mais les données sont souvent rendues discontinues par la précision avec laquelle on mesure 170 cm 171 cm 172 cm tailles Précision de la mesure = 1cm 38/48 Si elles proviennent de comptages, les données métriques se répartissent sur l'axe de manière discontinue (ou discrète) 1 2 3 Nombre de fautes Rmq: les résultats aux tests de calcul et de lecture présentés avant sont des données métriques 39/48 Données non métriques Ce sont des données issues d’un classement ou d’une répartition des éléments de l’ensemble dans des catégories et dans ce cas, peuvent faire l’objet d’un dénombrement (on va compter combien il y a de données dans les différentes catégories). 40/48 Données ordinales par rang Classement individuel et ordonné Rang = 5 Rang = 4 Rang = 3 Rang = 2 Rang = 1 Chaque élément est caractérisé par un nombre correspondant à sa place dans le classement (ou rang). 41/48 Lorsque deux ou plusieurs valeurs sont identiques, leur rang est égal à la moyenne arithmétique des rangs de ces valeurs. Attribuez un rang à chacune de ces 8 tailles: 155 160 162 162 170 176 182 187 42/48 155 160 162 162 170 176 182 187 1 2 3.5 3.5 5 6 7 8 Rang moyen 3+4 = 3.5 2 43/48 Données ordinales par catégories Données réparties en classes mutuellement exclusives et ordonnées La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif est toujours un nombre entier) :10 petits, 6 moyens et 5 grands 44/48 Les données ordinales peuvent également faire l’objet de présentations sous la forme de pourcentages. Degré de satisfaction Pourcentages Je suis très satisfait et je la 74% recommande vivement Très satisfait 17% Satisfait 5% Moyennement satisfait 3% Pas du tout satisfait 1% Tableau 5 : degré de satisfaction des participants à une formation 45/48 Données nominales Données réparties en classes mutuellement exclusives mais pas ordonnées, pas hiérarchisées La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif est toujours un nombre entier) : 6 cheveux blonds; 10 cheveux bruns; 4 cheveux noirs 46/48 Les données nominales peuvent également faire l’objet de présentations sous la forme de pourcentages. Religions Pourcentages Hindouisme 49% Christianisme 32% Islam 17% Bouddhisme et religions 1% chinoises Sans religion et autres 1% Tableau 6 : Principales religions en présence à l’Ile Maurice (selon le recensement de 2011) 47/48 Données Métriques Non métriques Ordinales Nominales par rang Ordinales par catégories Ordinales par Ordinales par Nominales rang catégories Données Données réparties Données réparties réparties en classes en classes individuellement mutuellement mutuellement de manière exclusives et exclusives mais ordonnée ordonnées pas ordonnées Hiérarchie, ordre Hiérarchie, ordre Hiérarchie Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/49 Comment présenter les données? Situation 1 : petits effectifs (le plus généralement: N50) 30/49 Lorsque l’effectif de l’échantillon augmente: On va procéder à un groupement en classes des données brutes (ex: maternité où on va « classer » les bébés nés cette année en fonction de leur poids à la naissance) Histogramme: représentation graphique des données métriques groupées en classes, constituée d’un ensemble de rectangles 1 classe = 1 rectangle 31/49 Notions de base Domaine de la variable Ensemble de toutes les données théoriquement observables Ex: cotes de 0 à 10 (précision = 1) D.V. = {0,1,2,3,4,5,6,7,8,9,10} 32/49 Etendue des données différence entre la plus grande et la plus petite donnée précise la portion du domaine de la variable occupée par des données réelles Ex: 7 9 10 4 5 3 5 8 6 6 E.D. = 10 - 3 E.D. = 7 33/49 Nombre de valeurs possibles Nombre de valeurs différentes que peuvent prendre les données réelles E.D. +1 précision Ex: 7 +1=8 1 34/49 Limites de classe Valeurs extrêmes des données de chaque classe; elles sont notées Lk 5 9 35/49 Bornes de classe La borne de classe est la valeur située entre la limite supérieure d’une classe et la limite inférieure de la classe suivante; elle est notée Bk 5 9 10 14 4.5 9.5 14.5 36/49 Centres de classe Le centre de classe est la valeur qui se situe au centre de la classe; c’est la moyenne des deux bornes entre lesquelles il se trouve; il est noté Ck 4.5 5 9 9.5 7 37/49 Intervalle de classe Amplitude de chaque classe (c’est-à-dire Bs-Bi); il est noté ik 4.5 9.5 ik= 5 38/49 Effectif de classe Nombre de données comprises dans une classe; il est noté fk L’effectif de classe peut être transformé en proportion d’effectif. 39/49 Proportion d’effectif fk pk = N pk = proportion d’effectif fk = effectif de classe N = effectif total 40/49 Ex: dans un auditoire de 200 étudiants, il y en a 60 dont la taille est comprise entre 1.70 m et 1.75 m. Quelle proportion ces étudiants représentent-ils? pk = proportion d’effectif = ce qu’on veut calculer fk = effectif de classe = 60 fk N = effectif total = 200 pk = N 60 𝑝𝑘 = 200 𝑝𝑘 =.30 𝑜𝑢 30% 41/49 Densité d’effectif Exprime la concentration des données à l’intérieur de chacune des classes; elle est notée yk pk yk = ik 42/49 Comment grouper des données en classe (E.D.)? Déterminer l’étendue des données (E.D.) Déterminer le nombre de valeurs possibles (V.P.) Choisir le nombre de classes (entre 5 et 20) – Avec un intervalle constant – Pas de classes vides – Si possible, nombre de valeurs par classe impair pour que le centre soit une donnée 43/49 Présentation numérique des données groupées en classes Bk Lk ck fk pk yk p. 35 du syllabus ------------------- 136.5 ------------------------------------------------- 137 classe 1.................................... 141 4.0500.0056 de théorie 145 ------------------- 145.5 ------------------------------------------------- 146 classe 2.................................... 150 10.1250.0139 154 ------------------- 154.5 ------------------------------------------------- 155 classe 3.................................... 159 22.2750.0306 163 ------------------- 163.5 ------------------------------------------------- 164 classe 4.................................... 168 25.3125.0347 172 ------------------- 172.5 ------------------------------------------------- 173 classe 5.................................... 177 14.1750.0194 181 ------------------- 181.5 -------------------------------------------------- 182 classe 6.................................... 186 5.0625.0069 190 ------------------- 190.5 -------------------------------------------------- Total....................................................80 1 44/49 Représentation graphique des données métriques en classes Densités d’effectifs (yk) Bornes de classes (Bk) 45/49 Histogramme Représentation graphique des données groupées en classes Constitué d’un ensemble de rectangles – Base = ik (ce qui se trouve entre deux bornes) – Hauteur = yk – Surface = pk pk yk ik 46/49 Rappel: S = surface du rectangle B = base du rectangle H = hauteur du rectangle H S S=BxH B 47/49 Surface du rectangle = pk Base du rectangle = ik Hauteur du rectangle = yk pk = ik x yk Yk pk pk ik yk = ik 48/49 Graphiquement, la proportion d’effectif est toujours représentée par une surface 49/49 Données Métriques Non métriques Ordinales Nominales par rang Ordinales par catégories Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/52 Caractériser l’ensemble des données par une valeur numérique 3/52 Indices statistiques (statistical indices) Un indice statistique est une valeur numérique qui représente un ensemble de données Indices de position Indices de dispersion Indices de relation Rmq: a statistical index 4/52 A. Les indices de position Moyenne Mode Indices quantiles ▪ Médiane ▪ Quartiles ▪ Déciles ▪ Centiles 5/52 Moyenne (mean) Caractéristiques générales: indice de tendance centrale; valeur de la variable qui représente au mieux l’ensemble des données; abscisse du centre de gravité de l’histogramme; notée m, mx ou X Influencée par les valeurs extrêmes de la distribution 6/52 Formule: σ 𝑋𝑖 𝑋ത = 𝑁 La moyenne est égale à la somme des données ( Xi) divisée par l’effectif total (N) 7/52 Exemple Voici les notes obtenues par un étudiant durant le premier semestre (notes sur 10). Calculez sa moyenne. 7 4 6 2 7 3 1 7 2 6 7 7 1 6  Xi = 66 N = 14 m = 66/14 m = 4.71 8/52 Classe de 1ère A Classe de 1ère B Recueil de formules Julie 8 Steve 5 et tables p. 1 Anna 9 Laura 7 Ensemble hétérogène Franco 3 Emma 4 constitué de deux Gaëlle 6 Kevin 7 groupes indépendants Jules 5 Thomas 3 de données Hassan 8 Milo 8 Lola 9 Leila 6 Tom 3 Zara 9 Notations: Dylan 8 N1 et m1 Nathan 10 N2 et m2 N1 = 10 N2 = 8  Xi =  Xi = m1 = m2 = 9/52 Classe de 1ère A Classe de 1ère B Recueil de formules Julie 8 Steve 5 et tables p. 1 Anna 9 Laura 7 Ensemble hétérogène Franco 3 Emma 4 constitué de deux Gaëlle 6 Kevin 7 groupes indépendants Jules 5 Thomas 3 de données Hassan 8 Milo 8 Lola 9 Leila 6 Tom 3 Zara 9 Notations: Dylan 8 N1 et m1 Nathan 10 N2 et m2 N1 = 10 N2 = 8  Xi = 69  Xi = 49 m1 = 6.9 m2 = 6.1 10/52 Test de calcul Test de lecture Recueil de formules Julie 8 7 et tables p. 1 Anna 9 8 Ensemble Franco 3 4 hétérogène Gaëlle 6 7 constitué de deux groupes appareillés Jules 5 3 de données Hassan 8 10 Lola 9 7 Tom 3 5 Notations: Dylan 8 7 Nx et mx Nathan 10 8 Ny et my Nx = 10 Ny = 10  Xi =  Xi = mx = my = 11/52 Test de calcul Test de lecture Recueil de formules Julie 8 7 et tables p. 1 Anna 9 8 Ensemble Franco 3 4 hétérogène Gaëlle 6 7 constitué de deux groupes appareillés Jules 5 3 de données Hassan 8 10 Lola 9 7 Tom 3 5 Notations: Dylan 8 7 Nx et mx Nathan 10 8 Ny et my Nx = 10 Ny = 10  Xi = 69  Xi = 66 mx = 6.9 my = 6.6 12/52 Moyenne pondérée (weighted mean) a. À partir de nombres Dans la présentation où l’on associe à chaque donnée, un nombre entier (effectif) qui indique le nombre d'éléments de l'ensemble caractérisés par cette donnée, chaque donnée est ainsi affectée d’un certain “poids” : on dit que la donnée est pondérée par son nombre d'apparitions (ou effectif). La moyenne pondérée peut dès lors être obtenue de la manière suivante: σ 𝑓𝑖 𝑋𝑖 𝑋ത = 𝑁 13/52 Franco 3 Tom 3 Jules 5 Données Fréquences Gaëlle 6 (Xi) (fi) Julie 8 3 2 Hassan 8 5 1 Dylan 8 6 1 Anna 9 8 3 Lola 9 9 2 Nathan 10 10 1 N = 10 N = 10 m = 6.9 14/52 Un psychologue fait passer un test de connaissances aux 14 enfants d’une classe de sixième année. Les résultats sont les suivants (test noté sur 10): 1 6 7 7 2 3 1 2 4 6 6 7 7 7 1. Calculez la moyenne arithmétique 2. Rangez les données par ordre croissant et associez chacune d’entre elle à sa fréquence d’apparition. 3. Calculez la moyenne pondérée 15/52 Xi 1 2 3 4 5 6 7 fi 2 2 1 1 0 3 5 1𝑥2 + 2𝑥2 + 3𝑥1 + 4𝑥1 + 5𝑥0 + 6𝑥3 + 7𝑥5 𝑚= 14 2 + 4 + 3 + 4 + 0 + 18 + 35 m= 14 m = 4.71 16/52 Moyenne pondérée b. À partir de moyennes Si parmi N nombres, f1 ont une moyenne m1; f2 une moyenne m2,... fk une moyenne mk, et que f1 + f2 +... fk = N, la moyenne des N nombres est: σ 𝑁𝑖 𝑚𝑖 𝑋ത = 𝑁  moyenne de moyennes 17/52 Un établissement d’enseignement primaire comporte 6 classes de sixième année. A l’issue des épreuves de CEB, chaque instituteur calcule la moyenne obtenue (/100) par sa classe à cette certification extérieure. Le directeur souhaite maintenant disposer de la moyenne de son établissement à cette épreuve. Comment va-t-il procéder? Aidez-le à calculer la moyenne globale. 18/52 6A 𝑁1 = 15 𝑚1 = 76 6B 𝑁2 = 22 𝑚2 = 54 6C 𝑁3 = 32 𝑚3 = 87 6D 𝑁4 = 16 𝑚4 = 68 6E 𝑁5 = 20 𝑚5 = 48 6F 𝑁6 = 27 𝑚6 = 90 N = 132 15x76 + 22x54 + 32x87 + 16x68 + 20x48 + 27x90 m= 132 La moyenne de l’établissement est égale à 72.65 19/52 Moyenne pondérée c. À partir des centres de classe On considère dans ce cas que la moyenne de chaque classe se situe au centre de gravité de chaque classe (donc, au centre) σ 𝑓𝑘 𝐶𝑘 𝑋ത = 𝑁  approche de la moyenne arithmétique 20/52 Mode (mode) Caractéristiques générales: donnée qui a la plus grande fréquence d’apparition; se trouve donc sur l’axe des abscisses. 21/52 Ex: soient les données suivantes: 4 6 4 7 8 4 - déterminez le mode; - représentez graphiquement et vérifiez votre réponse. La donnée qui apparaît le plus souvent est 4 (elle apparaît trois fois) mode = 4 22/52 Fréquences (fi) Données 2 4 6 8 (Xi) 23/52 Lorsque les données sont groupées en classes (histogramme), le mode est alors le centre de la classe modale, c'est à dire la classe qui a la densité la plus élevée. 24/52 Classe modale mode 25/52 Illustrations 26/52 Il n’y a qu’une seule classe modale: on va donc parler dans ce cas de distribution unimodale ou monomodale. 27/52 Une distribution unimodale n’est pas forcément symétrique! 28/52 Il y a deux classes modales: on va parler dans ce cas de distribution bimodale. 29/52 Il est fréquent dans la littérature que l’on parle de distribution bimodale lorsque deux « pics », de hauteurs différentes, apparaissent sur le graphique 30/52 Il y a plusieurs classes modales: on va parler dans ce cas de distribution multimodale ou plurimodale. 31/52 Il est fréquent dans la littérature que l’on parle de distribution plurimodale lorsque plusieurs « pics », de hauteurs différentes, apparaissent sur le graphique 32/52 Indices quantiles (tantiles) valeurs qui divisent l’ensemble des données en plusieurs parties égales. ▪ la médiane ▪ les quartiles ▪ les déciles ▪ les centiles 33/52 La médiane (median) Caractéristiques générales: indice de tendance centrale; relatif aux rangs des données; Point d’abscisse tel que 50% des données à sa gauche et 50% des données à sa droite; notée méd. 34/52 Valeur de l’abscisse qui divise un histogramme en deux surfaces égales 36/52 Géométriquement, la médiane n’est pas l'abscisse du centre de gravité de l'histogramme (sauf dans le cas d’un graphique symétrique ; ce que nous verrons plus loin). 37/52 Les quartiles (a quartile) ▪ notés Q1, Q2, Q3 ▪ valeurs qui divisent l’ensemble des données en quatre parties égales. 38/52 Quartiles 25% 75% Q1 75% 25% Q3 39/52 Les déciles (a decile) ▪ notés D1, D2, … D9 ▪ valeurs qui divisent l’ensemble des données en dix parties égales. 40/52 Déciles 10% 90% D1 90% 10% D9 41/52 les (per)centiles (a (per)centile) ▪ notés C1, C2, …C99 ▪ valeurs qui divisent l’ensemble des données en 100 parties égales. 42/52 Centiles 1% 99% C1 99% 1% C99 43/52 → Courbes pédiatriques 44/52 La médiane correspond: au 2ème quartile; au 5ème décile ; au 50ème centile. 50% 50% Q2 D5 C50 45/52 La méthode de calcul des autres indices quantiles est basée sur les mêmes principes de celle utilisée pour le calcul de la médiane. 46/52 B. Les indices de dispersion L'étalement plus ou moins important des données sur l'axe de mesure est appelé la dispersion des données. Un indice de dispersion est une mesure qui exprime une certaine distance sur l'axe des données. Il est donc défini dans les mêmes unités que la grandeur mesurée. L’étendue des données L’écart type La variance 47/52 L’étendue des données (range) Caractéristiques générales: écart entre la plus grande et la plus petite des données; constitue une mesure de la dispersion des données (informations sur les extrêmes); ne tient pas compte de la répartition des données à l’intérieur de la distribution. 48/52 Ecart type (standard deviation) Caractéristiques générales: indice qui exprime la dispersion des données autour de la moyenne; noté avec la lettre de l’alphabet grec  (sigma minuscule) ; défini dans les mêmes unités que les données; est d’autant plus grand que les éléments sont dispersés. 49/52 Formule: σ(𝑋𝑖 − 𝑋ഥ )2 𝜎= 𝑁 L’écart type est égal à la racine carrée de la moyenne arithmétique des carrés des écarts entre les données et la moyenne 50/52 La variance (variance) Caractéristiques générales: mesure servant à caractériser la dispersion d'un échantillon ou d'une population; définie comme le carré de l'écart-type; notée avec la lettre de l’alphabet grec  (sigma minuscule) élevée au carré. 51/52 Formule: σ (𝑋𝑖 − ഥ 𝑋 ) 2 2 𝜎 = 𝑁 La variance est égale à la moyenne arithmétique des carrés des écarts entre les données et la moyenne 52/52 Indices statistiques de position de dispersion de relation étendue des variance moyenne données mode écart type indices quantiles médiane quartiles déciles centiles Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/37 La fonction de densité 3/37 Lorsque les intervalles de classe deviennent de plus en plus petits, l’histogramme se réduit à une suite infinie de points (une courbe) qui définit une fonction de densité d’effectifs. yk ik ‘/37 Caractéristiques yi (densités d’effectifs) Xi (données) Xi où l’on porte Représentation graphique en abscisse: données (Xi) en ordonnée : densités d’effectifs (yi) et où la surface représente une proportion 5/37 Les formes les plus courantes et leurs caractéristiques 6/37 Les formes les plus courantes Symétrique yi Xi La courbe est symétrique par rapport à un axe vertical passant par son sommet. Le mode de la distribution est le point d’abscisse correspondant à ce sommet. 7/37 yi Xi Les données se répartissent de manière identique de part et d’autre de la médiane. 8/37 La surface totale sous la courbe = 1 (c’est-à-dire 100% des données) yi 50% 50% (.5) (.5) Xi La surface d’une demi-courbe =.5 (c’est-à-dire 50% des données) 9/37 yi Xi Mode = méd.= moyenne Dans le cas d’une courbe symétrique, moyenne, mode et médiane sont confondus en un même point d’abscisse (car ce sont des données). 10/37 Biaisée à droite yi Xi La portion à droite du sommet est plus longue que l’autre 11/37 yi Xi Mode < méd.< moyenne 12/37 Biaisée à gauche yi Xi La portion à gauche du sommet est plus longue que l’autre 13/37 yi Xi moyenne < méd. < mode 14/37 Distributions monomodales La distribution est caractérisée par un seul mode 15/37 Distributions bimodales et plurimodales bimodale La distribution est caractérisée par plusieurs pics, plusieurs «modes» (2 pour la distribution bimodale) 16/37 Eléments remarquables d’une distribution 17/37 Dans une distribution +/- symétrique: Point  d’inflexion m-1 m m+1 Les points d’inflexion (c’est-à-dire les endroits où la courbure est inversée) se situent à une distance (segment) de un écart type de part et d’autre de la moyenne. 18/37 Dessinez une distribution symétrique avec une moyenne égale à 150 et un écart type égal à 5; placez les points m+1σ et m-1σ 5 150 145 155 =5 19/37 Dans une distribution +/- symétrique: yi 34% 34% 16% 16% m Xi m-1 m+1 68% (soit environ 2/3) des données sont comprises entre m-1 et m+1 20/37 Dans une distribution +/- symétrique: yi 47.5% 47.5% 2.5% 2.5% m Xi m-2 m+2 95% des données sont comprises entre m-2 et m+2 21/37 Dans une distribution +/- symétrique: yi 49.5% 49.5% 0.5% 0.5% m Xi m-3 m+3 99% des données sont comprises entre m-3 et m+3 22/37 Dans une distribution +/- symétrique: yi 99% Xi m-3 m m+3 La quasi totalité des données (E.D.) se répartit sur 6  23/37 Calculez la surface entre : m-2 et m+1 m+1 et m+2 m-2 et m-1 Exprimez votre résultat en % de données. 24/37 m-2 et m+1 yi Xi 25/37 m-2 et m+1 yi Xi = + m-2 et m+1 = 47.5% + 34% m-2 et m+1 = 81.5% 26/37 m+1 et m+2 yi Xi yi Xi 27/37 m+1 et m+2 yi Xi yi Xi = - m+1 et m+2 = 47.5% - 34% m+1 et m+2 = 13.5% 28/37 m-2 et m-1 yi Xi yi Xi = - m-2 et m-1 = 47.5% - 34% m-2 et m-1 = 13.5% 29/37 Illustration: quotient intellectuel m=100 68%  = 15 30/37 Insuffisance mentale Intelligence = 2.5% supérieure = 2.5% m (100) m-2 (70) m+2 (130) m=100  = 15 31/37 Travail d’intégration 32/37 Dans une distribution « en cloche » plus ou moins symétrique, la plus petite donnée est 30 et la plus grande est 90. Dessinez la distribution; déterminez l’étendue des données (E.D.), la moyenne, le mode, la médiane et l’écart type; placez-les approximativement sur le graphique; Parmi les 3 valeurs suivantes, quelle est celle qui pourrait correspondre à Q1 : 45 50 55 Parmi les 3 valeurs suivantes, quelle est celle qui pourrait correspondre à D1 : 40 45 50 33/37 Corrigé 34/37 Yi (densités d’effectifs) Xi 30 90 (données) E.D.= 90-30 E.D. = 60 (se répartit sur 6  ) 60 → 1𝜎 = Donc, 1  = 10 6 35/37 Écart type yi (segment) 30 90 Xi 60 Moyenne; mode; médiane Confondus en un même point d’abscisse 36/37 Rappel 45 50 55 34% compl. 16% m-1 m+1 (50) 60 (70) 25% Q1 = +/-55 Rappel 37/37 40 45 50 compl. 16% 34% Compl. 2.5% 47.5% m-2 m-1 60 (40) (50) 10% D1 = +/- 45 Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/36 Loi normale ou Loi de Laplace-Gauss 3/36 Loi normale ou loi de Laplace-Gauss (Normal Distribution) Caractéristiques Y 50% 50% (.5) (.5) X Fonction de densité; sa surface totale = 1 (100% des données) 4/36 Continue et toujours symétrique Asymptotique par rapport à l’axe OX (tend vers l’axe en s'en rapprochant de plus en plus mais sans jamais l'atteindre → la courbe normale s’étend donc théoriquement de -  à + ) Mode, moyenne, médiane confondus (symétrique) 3  à gauche de la moyenne et 3  à droite → la quasi-totalité des données se répartit sur 6 écart types 5/36 34% 34% 68% des données sont comprises entre m-1  et m+1  47.5% 47.5% 95% des données sont comprises entre m-2  et m+2  49.5% 49.5% 99% des données sont comprises entre m-3  et m+3  6/36 Allure de la distribution L’allure de la distribution dépend de la valeur de la moyenne et de l’écart type Situation 1 1 1 <  2 2 m1 = m 2 7/36 1 2 La courbe 1 et la courbe 2 ont des allures différentes. La courbe 1 est plus concentrée et la courbe 2 est plus dispersée mais elles sont centrées autour d’une même moyenne 8/36 Situation 2 1 =  2 1 2 m1  m2 9/36 Courbes dont l’allure est identique mais qui sont déplacées horizontalement l’une par rapport à l’autre. Elles ne sont pas centrées autour d’une même moyenne mais sont caractérisées par une même dispersion. 10/36 Ces trois distributions normales ne diffèrent que par leur moyenne Ces trois distributions normales ne diffèrent que par leur écart type 11/36 Durant l’épidémie liée au Covid-19, les autorités ont tenté d’éviter la saturation des soins de santé. Pour ce faire, ils ont mis en œuvre des mesures afin d’« aplatir la courbe » de l’évolution du nombre de cas au cours du temps. Source: https://www.brunet.ca/sante/conseils- sante/aplatir-la-courbe/ 12/36 La première courbe, peu dispersée et haute, illustre une situation sans mesures de santé publique. Plus de gens sont atteints du coronavirus et le nombre maximal de cas prévus (pic de l'éclosion) est atteint plus rapidement. 13/36 La deuxième courbe, plus plate et plus dispersée, représente la situation où des mesures de santé publique sont prises. Les cas augmentent moins rapidement et le pic de l'éclosion se produit plus tard et est surtout moins élevé. La saturation du système de santé est évitée. Lecture d’un graphique issu de la littérature 14/36 scientifique Déterminez les valeurs de la moyenne et de l’écart type de chaque distribution. 15/36 𝑚 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑏𝑙𝑒𝑢𝑒 = 0 𝜎𝐵 =.44 𝑚𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑟𝑜𝑢𝑔𝑒 = 0 𝜎𝑅 = 1 𝑚𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑗𝑎𝑢𝑛𝑒 = 0 𝜎𝐽 = 2.24 𝑚𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑣𝑒𝑟𝑡𝑒 = −2 𝜎𝑉 =.71 16/36 Note z ou variable normale centrée réduite 17/36 18/36 1. Définition La note z est un indice de relation qui permet de résoudre des problèmes où il est nécessaire de comparer des distributions qui se répartissent différemment. 19/36 Ex: un élève du secondaire obtient 24/30 en physique et 80/100 en mathématiques. Dans laquelle de ces deux matières est-il le mieux classé? m1=20 1 =5 m2=70 2 =10 20/36 Variable sans unité de mesure qui permet de mettre en relation des grandeurs mesurées dans des unités différentes 21/36 2. Propriétés de la moyenne et de l’écart type 2.1. Propriété 1 de la moyenne Lorsqu’on soustrait à chacune des données Xi d’un échantillon un nombre constant (noté b), la moyenne du nouvel ensemble ainsi créé est égale à la moyenne des Xi soustraite de la même constante. Si Ti = Xi - b alors mT = mX - b 22/36 Calculez la moyenne sur base des données suivantes (Xi): 7 4 6 2 7 3 1 7 2 6 7 7 1 6 mX = 66/14 mX = 4.71 Données du nouvel ensemble (Ti): 6 3 5 1 6 2 0 6 1 5 6 6 0 5 mT = 52/14 mT = 3.71 Si Ti = Xi - b alors mT = mx - b 23/36 Si Ti = Xi - b alors mT = mx - b 2.2. Corrollaire Si l’on soustrait la moyenne (mx) d’un échantillon à chacune des données de celui-ci, la moyenne (mT) du nouvel ensemble ainsi créé sera nulle. Ici b = mx Si Ti = Xi - mx alors mT = mx - mx =0 24/36 On dit qu’une telle transformation centre la distribution autour de l’abscisse 0; la nouvelle distribution ainsi créée est appelée distribution centrée. Cette opération ne modifie pas la forme générale. 0 25/36 2.3. Propriété de l’écart type Lorsqu’on divise chacune des données Xi d’un échantillon par un nombre constant (noté a), l’écart type du nouvel ensemble ainsi créé est égal à l’écart type des Xi divisé par la même constante. Xi X Si Ti = alors  T = a a 26/36 Calculez l’écart type sur base des données suivantes (Xi): 8 4 6 2 8 4 2 8 2 6 8 8 2 6 X = 2.46 Données du nouvel ensemble (Ti): 4 2 3 1 4 2 1 4 1 3 4 4 1 3 T = 1.23 Xi X Si Ti = alors  T = a a 27/36 Xi X Si Ti = alors  T = a a 2.4. Corrollaire Si l’on divise chacune des données Xi par un nombre constant a =  x , l’écart type du nouvel ensemble ainsi créé est égal à 1. Xi X Si Ti = alors  T = donc  T = 1 X X 28/36 On dit qu’une telle transformation réduit la distribution à un écart type égal à 1; la nouvelle distribution ainsi créée est appelée distribution réduite. Celle-ci est sans unité. → On limite ainsi les problèmes liés aux dispersions différentes 29/36 Reprenons notre exercice: 30/36 Si nous centrons ces distributions autour d’une moyenne égale à zéro, nous obtenons deux distributions qui ne diffèrent plus que par leur allure générale et leur dispersion 31/36 Si nous réduisons l’écart type de chacune des distributions à 1 → il ne reste que quelques différences d’allure générale 32/36 3. Formule de la note z Xi − X z= i Variable centrée par rapport à la moyenne et réduite par rapport à l’indice de dispersion (écart type). → permet de situer les données dans leurs distributions respectives en éliminant les différences d’échelle et de complexité. 33/36 Un élève obtient 24/30 en physique et 80/100 en mathématiques. Par rapport à l’ensemble de la classe, en quoi est-il mieux classé? m2=70 2=10 m1=20 1=5 34/36 Si on calcule les notes z, on trouve: En physique En mathématique m1=20 m2=70 1=5 2=10 24 − 20 80 − 70 z= =.8 z= =1 5 10 Par rapport à l’ensemble de la classe, l’élève est donc mieux classé en mathématiques qu’en physique (sa note z en mathématiques est meilleure). 35/36 4. La distribution centrée réduite Distribution centrée autour d’une moyenne égale à zéro et réduite à un écart type égal à 1. 𝜎=1 m=0 36/36 Indices statistiques de position de dispersion de relation étendue des variance moyenne données mode indices quantiles écart type Note Z médiane quartiles déciles centiles Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/35 Calcul de proportions sous la loi normale centrée réduite 3/35 Calcul d’une surface entre deux points (a et b) Table des aires délimitées par la loi normale centrée réduite 4/35 Rappel: SURFACE = PROPORTION Sous une courbe, un calcul de surface nécessite un calcul mathématique un peu compliqué (intégrale) a et b sont les coupures qui délimitent la surface 5/35 Pour plus de facilité, on peut aussi utiliser une table qui va permettre de déterminer, sous une courbe normale, la valeur de différentes surfaces et ce, quels que soient m et . Table des aires délimitées par la loi normale centrée réduite (voir p.9 du recueil de formules et tables). 0 u 6/35 Rappel : loi normale centrée réduite yi  =1 u (coupures) m=0 = loi normale centrée autour d’une moyenne égale à 0 avec un écart type réduit à 1 7/35 Table des aires sous la courbe normale centrée réduite (voir p.9 du recueil de formules et tables). 0 u → surfaces comprises entre la moyenne (m=0) et une coupure u sous la courbe normale centrée réduite (avec 4 décimales) 8/35 Utilisation de la table des aires sous la courbe normale centrée réduite Entrée «gauche»: partie entière et première décimale de la valeur de coupure (u) Entrée «haut»: deuxième décimale de la valeur de coupure (u) «intérieur» de la table: surfaces comprises entre 0 et u sous la courbe normale centrée réduite (données avec 4 décimales) 9/35 Déterminez la surface allant de 0 à une coupure u de 0.32 u = 0.32 ▪ Partie entière et première décimale (entrée « gauche ») = 0.3 ▪ Deuxième décimale (« entrée haut ») = 2 → Surface de 0 à u = 0,1255 10/35 La table des aires sous la courbe normale centrée réduite est une demi-table (car la distribution est symétrique) → la table « fonctionne en miroir » → Surface maximum observée dans la table =.5 yi.4896.4896 u (coupures) -2.31 0 2.31 11/35 Surface délimitée par la moyenne et une coupure à droite entre 0 et 1.56 → détermination directe dans la table Surface =.4406 0 1.56 12/35 Surface délimitée par la moyenne et une coupure à gauche entre -1.63 et 0 → détermination directe dans la table Surface =.4484 -1.63 0 13/35 Surface délimitée par une coupure à gauche et une coupure à droite entre -0.92 et 0.92 Surface: =.3212 +.3212 =.6424 -.92.92 → Addition des deux surfaces 14/35 Surface délimitée par deux coupures à droite entre 1.35 et 1.67 Surface : =.4525 -.4115 =.0410 1.35 1.67 → La plus grande des deux surfaces – la plus petite 15/35 Surface délimitée par deux coupures à gauche entre -2.31 et -.80 Surface: =.4896 -.2881 =.2015 -2.31 -.80 → La plus grande des deux surfaces – la plus petite 16/35 Surface inférieure à une coupure à droite inf. ou égale à 2.50 Surface:.5 =.5 +.4938 =.9938 2.50 →.5 + surface 17/35 Surface supérieure à une coupure à gauche sup. ou égale à – 1.28 Surface:.5 =.3997 +.5 =.8997 -1.28 →surface +.5 18/35 Surface supérieure à une coupure à droite sup. ou égale à 1.07 Surface:.3577 =.5 -.3577 =.1423 1.07 →.5 - surface 19/35 Surface inférieure à une coupure à gauche inf.. ou égale à -1.11 Surface:.3665 =.5 -.3665 =.1335 - 1.11 →.5 - surface 20/35 Moyenne - 1 coupure à droite → surface dans la table Moyenne - 1 coupure à gauche → surface dans la table 1 coupure à G et 1 coupure à D → addition des 2 surf 2 coupures à D → la plus grande surface – la plus petite 2 coupures à G → la plus grande surface – la plus petite Inférieure à une coupure à D →.5 + surface Supérieure à une coupure à G →.5 + surface Inférieure à une coupure à G →.5 – surface Supérieure à une coupure à D →.5 - surface 21/35 Calcul d’aires sous n’importe quelle courbe normale 22/35 Pour passer de la distribution de départ à la distribution normale centrée réduite, on va utiliser la variable centrée réduite z. La note z est appelée dans ce cas, note u. Dans d’autres situations, elle est appelée note t. z u t 𝑋𝑖 − 𝑋ത 𝑢= 𝜎𝑖 23/35 Yi Distribution  =5 cm de départ 160cm 𝑋𝑖 − 𝑋ത Xi 𝑢= 𝜎𝑖 Yi   =1 =1 Distribution normale 0 u centrée réduite 24/35 Mises en situations: valeurs de quotient intellectuel Les valeurs de QI sont des valeurs entières; nous avons donc, dans ce cas, à faire à une variable discrète qui nous autorise à calculer les notes u sur la base de valeurs réelles de la distribution m=100  = 15 25/35 Quelle est la proportion d’individus ayant un Q.I. entre 100 et 115 (valeurs incluses)? 100 − 100 m=100 u100 = 15  = 15 u100 = 0 115 − 100 u115 = 15 u115 = 1 Nous voyons que la moyenne (m=100) devient bien m=0 dans la distribution centrée réduite correspondante 26/35 Table de la Normale centrée réduite avec la note u=1 (puisque la table donne les surfaces allant de 0 à u) Surface entre 0 et 1 =.3413 Nous retrouvons bien 34% de données entre m (100) et m+1σ (115) 27/35 Quelle est la proportion d’individus ayant un Q.I. entre 110 et 120 (valeurs incluses)? 110 − 100 m=100 u110 = 15  = 15 u110 = 0.67 120 − 100 u120 = 15 u120 = 133. Table des aires sous la loi normale centrée réduite avec u = 0.67 et u = 1.33 Surface entre.67 et 1.33 = car 2 coupures à.4082 –.2486 =.1596 droite 28/35 Quelle est la proportion d’individus ayant un Q.I. supérieur ou égal à 115? 115 − 100 u115 = m=100 15 u115 = 1  = 15 Table des aires sous la loi normale centrée réduite avec u=1 Surface au-delà de 1: =.5 -.3413 =.1587 29/35 La demi surface sous la courbe étant égale à 50% (.5), nous retrouvons bien 16% de données, c’est-à- dire la surface complémentaire aux 34% de données qui se trouvent entre m (100) et m+1σ (115) 30/35 Lorsque l’on travaille avec une variable continue (comme des tailles par exemple), les mesures sont rendues discrètes par la précision de la mesure de l’instrument utilisé (ex: un mètre ruban qui permet de mesurer des tailles au cm près). Pour effectuer des calculs de surface plus précis, on va placer la (les) coupure(s) qui délimite(nt) la surface à calculer à la demi-précision de la mesure (dans le cas de notre exemple: un demi cm) 31/35 Calculez la proportion d’individus ayant une taille comprise entre la moyenne et 1.70m (valeurs comprises) sachant que la moyenne de la distribution vaut 1.60m, l’écart type 5 cm et que la précision de la mesure est 1 cm. Variable continue → notes u à la demi-précision = 0.5 cm → 159.5 cm, 160.5 cm, 170.5 cm … Proportion d’individus ayant une taille comprise 32/35 entre la moyenne et 1.70m (valeurs comprises) Précision mesure = 1 159 160 170 180 Demi- 159.5 170.5 précision mesure =.5 On va calculer la u de 159.5 et la note u de 170.5 33/35 1595. − 160 u159.5 = Recherches des 5 u159.5 = −.10 surfaces correspondantes dans 1705. − 160 la Table des aires u170.5 = 5 sous la loi normale u170.5 = 21. centrée réduite 1 coupure à G et 1 coupure à D de la moyenne → addition des 2 surf.0398+.4821=.5219 Il y a 52.19% d’individus dont la taille est comprise entre la moyenne et 1.70m (valeurs comprises) 34/35 Ex: calculez la proportion d’individus ayant une taille comprise entre 1.68 m et 1.71m (valeurs comprises) sachant que la moyenne de la distribution vaut 1.60m, l’écart type 5 cm et que la précision de la mesure est 1 cm. 35/35 167.5−160 𝑢167.5 = soit 1.5 Recherches des 5 surfaces 171.5−160 𝑢171.5 = soit 2.3 correspondantes 5 dans la Table des aires sous la loi normale centrée réduite.4893-.4332 =.0561 car 2 coupures à droite Il y a 5.61% d’individus dont la taille est comprise entre 1.68 m et 1.71m (valeurs comprises) Bases pour l’analyse descriptive et inférentielle (BASDI) Prof. Marielle BRUYNINCKX 2/56 Indices statistiques de position de dispersion de relation étendue des variance moyenne données mode écart type indices quantiles Note Z médiane quartiles déciles centiles 3/56 Le coefficient de corrélation r de Bravais-Pearson. Aspects descriptifs 4/56 1. Groupes appareillés (ou appariés) Lorsque l’ensemble des données est constitué de groupes appareillés, chaque élément de l’ensemble est associé à la valeur de deux variables. → séries bivariées de données 5/56 → pour chaque élément de l’ensemble, on a une paire de données (Xi ,Yi). Ex. 1: les notes en math (Xi) et en physique (Yi) d’un ensemble de 30 élèves Ex. 2 : les résultats de 25 sujets à un pré- test (Xi) et à un post-test (Yi) 6/56 2. Coefficient de corrélation (coefficient of correlation) Un coefficient de corrélation est un indice statistique qui traduit la tendance des données Xi et Yi (appareillées) à varier ensemble. ex : plus on est grand, plus on est lourd → relation positive entre la taille et le poids 7/56 3. Diagramme de dispersion (scatter diagram) Répartition des variables sur deux axes perpendiculaires : l’une distribuée en abscisse et l’autre en ordonnée. poids S2 S1 tailles 8/56 9/56 4. Droites de régression (regression) Sur le diagramme de dispersion, on peut tracer des droites de régression qui représentent au mieux l’ensemble des données. Elles permettent de prédire les valeurs théoriques attendues d’une variable en fonction des valeurs de l’autre variable 10/56 5. Corrélation et régression simples On parle de corrélation et régression simples lorsqu’il y a que deux variables qui interviennent (x , y). 11/56 6. Corrélation et régression multiples On parle de corrélation et régression multiples lorsqu’il y a plus de deux variables qui interviennent. 12/56 7. Corrélation linéaire On parle de corrélation linéaire lorsque tous les points ont tendance à se rapprocher d’une même droite. Ex: le r de Bravais- Pearsons 13/56 8. Corrélation non linéaire On parle de corrélation non linéaire lorsque tous les points ont tendance à se rapprocher d’une courbe. Ex: le rho de Spearman 14/56 9. Le coefficient r de Bravais-Pearson (Bravais correlation coefficient) Le coefficient r de Bravais-Pearson est un coefficient de corrélation linéaire, calculé à partir de deux séries appareillées de données métriques. Sa valeur varie de –1 à 1. 15/56 9.1. Diagrammes de dispersion: situations r = 1 : corrélation positive, parfaitement linéaire Ex: le temps écoulé et le nombre de km parcourus (mobile à vitesse constante) 16/56 r=1 Yi (km parcourus) Xi (temps écoulé) 17/56 Exemple: Lien entre les notes obtenues par des étudiants (sur100) et les mêmes notes ramenées sur 20 Plus la note sur 100 augmente, plus la même note ramenée sur 20 augmente aussi (relation proportionnelle)→ corrélation positive, parfaitement linéaire 18/56 r = -1 : corrélation négative, parfaitement linéaire Ex: le temps écoulé et le nombre de km qu’il reste à parcourir (mobile à vitesse constante) 19/56 r = -1 Yi (km à parcourir) Xi (temps écoulé) 20/56 Exemple: mesure de l’essence restante en fonction de la distance parcourue Plus la distance parcourue augmente, plus la quantité d’essence restante est faible (relation inversement proportionnelle)→ corrélation négative, parfaitement linéaire 21/56 r = 0 : corrélation nulle ex: la longueur des cheveux et l’intelligence 22/56 r=0 Yi (longueur des cheveux) Xi (intelligence) 23/56 Exemple: lien entre la longitude d’une ville et le nombre de lettres constituant son nom Il n’y a aucun lien entre les deux variables → corrélation nulle 24/56 Lorsque 0 < r < 1 : la relation est positive mais pas parfaitement linéaire. Ex : taille et poids 25/56 0

Use Quizgecko on...
Browser
Browser