Statistiques Descriptives 2024 - Copie Étudiant - PDF
Document Details
Uploaded by Grosseverge
2024
Leslie Podlog, PhD
Tags
Summary
Ce document contient des notes de cours sur les statistiques descriptives. Il explique les concepts clés comme la moyenne, la médiane, le mode, l'étendue, la variance et l'écart-type. Les notes incluent des exemples et des illustrations. L'objectif est de comprendre et d'appliquer les méthodes de base des statistiques.
Full Transcript
Leslie Podlog, PhD Professeur EKSAP [email protected] Adapté du travail du Prof. Raynald Bergeron Creswell (2015) Statistique Descriptive Distributions Mesures de tendance Mesures de variabilité de fréquences centrale Valeur...
Leslie Podlog, PhD Professeur EKSAP [email protected] Adapté du travail du Prof. Raynald Bergeron Creswell (2015) Statistique Descriptive Distributions Mesures de tendance Mesures de variabilité de fréquences centrale Valeurs de 1. Moyenne 1. Étendue données et 2. Médiane 2. Variance fréquences 3. Mode 3. Écart type correspondantes Distribution de fréquences ❖ Distribution de fréquences : liste les valeurs de données (individuellement ou par groupes d'intervalles), ainsi que leurs fréquences ou dénombrements correspondants. ▪ 147 personnes ont 48 38 52 52 66 49 66 participé à une étude 35 37 54 62 71 43 71 sur l’arrêt de la 46 46 56 57 82 46 75 cigarette. 44 44 53 59 68 34 72 ▪ L’âge d’arrêt de la 43 48 64 59 78 46 65 cigarette de chaque 42 49 53 56 66 46 67 participant est indiqué 39 30 58 57 70 48 38 dans la table 44 45 54 53 66 47 44 49 48 59 59 78 43 43 ▪ Quand le nombre de 49 47 56 61 69 52 47 données brutes (la série 44 47 62 55 71 53 46 statistique) est grand, un 39 44 50 61 69 61 57 tableau comme celui-ci 38 48 64 56 78 60 59 n’est pas du tout 49 45 53 52 66 53 57 informatif. 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 ▪ Il faut donc le traiter, 67 45 57 50 77 54 62 l’organiser. 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 5 48 38 52 52 66 49 66 35 37 54 62 71 43 71 ▪ Une façon de l'organiser pour la 46 46 56 57 82 46 75 présentation consiste 44 44 53 59 68 34 72 à construire une 43 48 64 59 78 46 65 distribution de 42 49 53 56 66 46 67 fréquences pour une 39 30 58 57 70 48 38 variable d'intérêt 44 45 54 53 66 47 44 (par exemple, l'âge 49 48 59 59 78 43 43 d’arrêt de la 49 47 56 61 69 52 47 cigarette). 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 ▪ Nous pourrions 49 45 53 52 66 53 57 simplement mettre 49 44 61 54 68 53 52 chaque âge entre 53 48 53 51 71 50 54 l'âge le plus bas et 56 43 62 50 69 53 53 l'âge le plus élevé, 67 45 57 50 77 54 62 ainsi que la 51 40 52 55 76 61 59 fréquence y 61 48 54 63 71 61 54 associée. 6 53 49 61 50 43 61 60 Arrêt de la Fréq. 48 38 52 52 66 49 66 cigarette 35 37 54 62 71 43 71 (Age) 46 46 56 57 82 46 75 30 1 44 44 53 59 68 34 72 43 48 64 59 78 46 65 31 0 42 49 53 56 66 46 67 32 0 39 30 58 57 70 48 38 33 0 44 45 54 53 66 47 44 34 1 49 48 59 59 78 43 43 35 1 49 47 56 61 69 52 47 44 47 62 55 71 53 46 36 0 39 44 50 61 69 61 57 37 0 38 48 64 56 78 60 59 38 3 49 45 53 52 66 53 57 39 2 49 44 61 54 68 53 52 jusqu'à: 53 56 48 43 53 62 51 50 71 69 50 53 54 53 67 45 57 50 77 54 62 82 1 51 40 52 55 76 61 59 61 48 54 63 71 61 54 Désolé, c'est trop long!! 53 49 61 50 43 61 60 7 48 38 52 52 66 49 66 ▪ Nous devons regrouper 35 37 54 62 71 43 71 46 46 56 57 82 46 75 les nombres en 44 44 53 59 68 34 72 "catégories". 43 48 64 59 78 46 65 42 49 53 56 66 46 67 39 30 58 57 70 48 38 ▪ Nous appelons ces 44 45 54 53 66 47 44 49 48 59 59 78 43 43 catégories des "classes". 49 47 56 61 69 52 47 44 47 62 55 71 53 46 39 44 50 61 69 61 57 ▪ Par exemple, nous 38 48 64 56 78 60 59 49 45 53 52 66 53 57 pourrions regrouper les 49 44 61 54 68 53 52 nombres en plusieurs 53 48 53 51 71 50 54 classes: de 30 à 39, de 40 à 56 43 62 50 69 53 53 49, de 50 à 59, etc. 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Arrêt de la Fréquence 48 38 52 52 66 49 66 cigarette 35 37 54 62 71 43 71 (Classes) 46 46 56 57 82 46 75 44 44 53 59 68 34 72 43 48 64 59 78 46 65 42 49 53 56 66 46 67 39 30 58 57 70 48 38 44 45 54 53 66 47 44 49 48 59 59 78 43 43 49 47 56 61 69 52 47 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 49 45 53 52 66 53 57 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Arrêt de la Fréquence cigarette 48 38 52 52 66 49 66 (Classes) 35 37 54 62 71 43 71 30-39 46 46 56 57 82 46 75 44 44 53 59 68 34 72 43 48 64 59 78 46 65 42 49 53 56 66 46 67 39 30 58 57 70 48 38 44 45 54 53 66 47 44 49 48 59 59 78 43 43 49 47 56 61 69 52 47 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 49 45 53 52 66 53 57 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Arrêt de la Fréquence cigarette 48 38 52 52 66 49 66 (Classes) 35 37 54 62 71 43 71 46 46 56 57 82 46 75 30 – 39 44 44 53 59 68 34 72 40 – 49 43 48 64 59 78 46 65 42 49 53 56 66 46 67 39 30 58 57 70 48 38 44 45 54 53 66 47 44 49 48 59 59 78 43 43 49 47 56 61 69 52 47 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 49 45 53 52 66 53 57 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Arrêt de la Fréquence cigarette 48 38 52 52 66 49 66 (Classes) 35 37 54 62 71 43 71 46 46 56 57 82 46 75 30 – 39 44 44 53 59 68 34 72 40 – 49 43 48 64 59 78 46 65 50 – 59 42 49 53 56 66 46 67 39 30 58 57 70 48 38 60 – 69 44 45 54 53 66 47 44 70 – 79 49 48 59 59 78 43 43 49 47 56 61 69 52 47 80 – 89 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 49 45 53 52 66 53 57 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Arrêt de la Fréquence cigarette 48 38 52 52 66 49 66 (Classes) 35 37 54 62 71 43 71 30 – 39 9 46 46 56 57 82 46 75 44 44 53 59 68 34 72 40 – 49 43 48 64 59 78 46 65 50 – 59 42 49 53 56 66 46 67 60 – 69 39 30 58 57 70 48 38 44 45 54 53 66 47 44 70 – 79 49 48 59 59 78 43 43 80 – 89 49 47 56 61 69 52 47 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 49 45 53 52 66 53 57 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Arrêt de la Fréquence cigarette 48 38 52 52 66 49 66 (Classes) 35 37 54 62 71 43 71 30 – 39 9 46 46 56 57 82 46 75 40 – 49 42 44 44 53 59 68 34 72 43 48 64 59 78 46 65 50 – 59 42 49 53 56 66 46 67 60 – 69 39 30 58 57 70 48 38 44 45 54 53 66 47 44 70 – 79 49 48 59 59 78 43 43 80 – 89 49 47 56 61 69 52 47 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 49 45 53 52 66 53 57 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Arrêt de la Fréquence cigarette (Classes) 48 38 52 52 66 49 66 35 37 54 62 71 43 71 30 – 39 9 46 46 56 57 82 46 75 40 – 49 42 44 44 53 59 68 34 72 50 – 59 51 43 48 64 59 78 46 65 42 49 53 56 66 46 67 60 – 69 32 39 30 58 57 70 48 38 70 – 79 13 44 45 54 53 66 47 44 49 48 59 59 78 43 43 80 – 89 1 49 47 56 61 69 52 47 44 47 62 55 71 53 46 39 44 50 61 69 61 57 38 48 64 56 78 60 59 49 45 53 52 66 53 57 49 44 61 54 68 53 52 53 48 53 51 71 50 54 56 43 62 50 69 53 53 67 45 57 50 77 54 62 51 40 52 55 76 61 59 61 48 54 63 71 61 54 53 49 61 50 43 61 60 Raisons pour construire des distributions de fréquence 1. Les grands ensembles de données peuvent être résumés. 2. On peut obtenir certaines indications sur la nature des données. 3. On dispose d'une base pour construire des graphiques, le plus souvent un histogramme Fumeurs 40 Nombre de valeurs 30 20 10 0 30 35 40 45 50 55 60 65 70 75 80 85 Classes (5 / classe) Âge 2023-10-07 17 Mesures de tendance centrale Tendance centrale Il s'agit de déterminer où se trouve le centre de la distribution des données Une valeur représentative ou typique de l'ensemble de données Il existe trois mesures de tendance centrale utilisées couramment La moyenne La médiane Le mode 18 30 1 31 0 32 0 33 0 34 1 35 1 36 0 37 1 38 3 ▪ La moyenne d’une série de données numériques est 39 2 40 1 41 0 égale à la somme de toutes les données divisée par 42 1 43 6 44 7 la taille de leur effectif. 45 46 47 3 6 4 48 7 n Somme des données 49 7 X 50 5 51 2 i 52 6 53 12 X= i =1 54 55 7 2 n 56 57 5 5 58 1 59 6 Nombre de données 60 61 62 2 9 4 63 1 64 2 65 1 66 5 X = (30+34+35+37+38+38+38+39…) = 54,69 67 68 2 2 69 3 70 1 147 71 72 5 1 73 0 74 0 75 1 76 1 77 1 78 3 79 0 80 0 2023-10-07 81 82 0 1 19 ▪ La médiane (Md) d'une série statistique rangée par ordre croissant est la valeur du milieu. ▪ Il y a autant de données inférieures à Md que de données supérieures à Md. ▪ Si le nombre n de données est impair, la médiane est attribuée par le nombre d’observations (n +1)/2 en partant de la plus petite (ou de la plus grande). Ex.: Nombre de manuels scolaires dans le sac à dos de 5 étudiants. n=5 observations ; X1 X2 X3 X4 X5 5+1 = 6 ; 6/2 = 3 9 8 7 7 6 Donc la 3ième observation Médiane(Md) = 7 est la médiane 20 2023-10-07 ▪ Si le nombre n de données est pair : ▪ Classez les nombres par ordre croissant, du plus petit au plus grand. ▪ Identifiez les deux nombres du milieu dans la liste triée. ▪ Calculez la moyenne de ces deux nombres du milieu. Ex.: Nombre de manuels scolaires dans le sac à dos de 6 étudiants. X1 X2 X3 X4 X5 X6 9 8 8 5 3 1 Median(Md) = 6.5 2023-10-07 21 30 1 31 0 32 0 33 0 34 1 35 1 36 0 37 1 ▪ Le mode (Mo) correspond à la valeur la plus fréquente 38 3 39 2 40 1 41 0 dans une distribution de fréquence 42 43 44 1 6 7 45 3 ▪ Il s'agit de la valeur où la distribution atteint son maximum 46 47 6 4 48 7 49 7 50 5 51 2 52 6 Fumeurs Quel est le 53 12 54 7 55 2 15 56 5 mode ici? 57 5 58 1 59 6 Nombre de valeurs 60 2 61 9 62 4 10 63 1 64 2 65 1 66 5 67 2 68 2 69 3 5 70 1 71 5 72 1 73 0 74 0 75 1 76 1 0 77 1 78 3 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 79 0 80 0 2023-10-07 Âge 81 82 0 1 22 ▪Ex.: 18, 17, 15, 12, 12, 9, 5, 3, 3, 2, 2, 2, 1. 2023-10-07 23 Mesures de variabilité Cela nous donne une idée de la répartition des données. Les petites valeurs indiquent que les valeurs des données sont toutes proches les unes des autres ; les grandes valeurs indiquent que les valeurs des données sont plus dispersées (plus de variabilité). Il existe plusieurs mesures de dispersion des données : 1. L’étendue 2. Variance 3. Écart-type (Standard deviation) Les valeurs de la Liste 1 sont regroupées de manière très proche autour de la valeur centrale qui est 60 Les valeurs de la Liste 2 sont dispersées ou étalées autour de la valeur centrale qui est 60. Étendue L'étendue des valeurs observées pour une variable spécifique. L'étendue = (valeur maximum) – (valeur minimum) Exemples 1. Données hypothétiques « manuels scolaires dans le sac à dos». X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 9 8 7 7 7 6 6 5 4 2 L'étendue = 9 – 2 = 7 2. Données sur le cholestérol Maximum = 520, Minimum = 135 → L'étendue = 520 – 135 =385 L'étendue fournit une image rapide et approximative de la dispersion des données. Cependant, elle présente peu d'avantages en tant que statistique inférentielle. ▪ La variance : une mesure de la dispersion des scores par rapport à la moyenne. ▪ La variance fournit des informations sur l'écart de chaque score par rapport à la moyenne. ▪ Une variance plus faible (un score plus proche de zéro) suggère que les scores sont plus proches de la moyenne, ce qui indique une moindre variabilité. ▪ Une variance plus élevée suggère que les scores sont plus dispersés par rapport à la moyenne, ce qui indique une plus grande variabilité. ▪ La variance est la moyenne des écarts quadratiques par rapport à la moyenne. 2023-10-07 27 2 18.57 2023-10-07 28 ▪ Comme la variance, l'écart type fournit des informations sur la mesure dans laquelle les scores s'écartent de la moyenne. L'écart type est une mesure de la quantité moyenne par laquelle les points de données individuels s'écartent de la moyenne. ▪ L'écart type est souvent préféré à la variance car il est exprimé dans les mêmes unités que les données d'origine, ce qui facilite son interprétation (e.x.: kg, Km, etc) ▪ L'écart type est la racine carrée de la variance. ▪ L'écart type est représenté par σ (sigma) pour la population et par s pour l'échantillon. 2023-10-07 29 2023-10-07 30 2023-10-07 31 ▪ X =15.5 ± 3.338 signifie que la plupart de vos scores (68.3%) se situent dans l’étendue de 12.162 à 18.838. ▪ X =15.5 ±.9258 signifie que la plupart de vos scores (68.3%) se situent dans l’étendue de 14.5742 à 16.4258. ▪ X =15.5 ± 4.567 signifie que la plupart de vos scores (68.3%) se situent dans l’étendue de 10.933 à 20.067 2023-10-07 32 2023-10-07 33