Résumé statistique PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Ce document est un résumé de cours sur les rappels de statistiques descriptives. Il couvre des sujets tels que l'introduction, les statistiques descriptives unidimensionnelles et bidimensionnelles, avec des exemples.
Full Transcript
Cours 2 : Rappels de Statistique descriptive A- Introduction B- Statistique descriptive unidimensionnelle C- Statistique descriptive bidimensionnelle A- Introduction A- Introduction 9 Rappel : Série statistique = ensemble de mesures d’une ou plusieurs vari...
Cours 2 : Rappels de Statistique descriptive A- Introduction B- Statistique descriptive unidimensionnelle C- Statistique descriptive bidimensionnelle A- Introduction A- Introduction 9 Rappel : Série statistique = ensemble de mesures d’une ou plusieurs variables faites sur une population ou un échantillon d’individus. A- Introduction 9 Objectifs de la statistique descriptive (ou exploratoire): résumer, synthétiser l’information contenue dans la série statistique, mettre en évidence ses propriétés. suggérer des hypothèses relatives à la population dont est issu l’échantillon. 9 Outils utilisés : Tableaux (table des fréquences, de contingence, …) Graphiques (box-plots, histogrammes,..) indicateurs (moyenne, corrélation,..). A- Introduction 9 Le type d’outils utilisé dépend De la nature de la série (uni ou multi dimensionnelle) De la nature des variables (quantitatives discrètes, continues ou qualitatives). A- Introduction Exemple : observation de la Table des fréquences: séquence d’un brin d’ADN valeurs effectifs frequences A 26 0,26 C 27 0,27 GGGAGTGTBTATTAABTBBGAA G 27 0,27 BTBBBAGBGBTAGBTBGBGBGG T 20 0,2 AGTGABBGAGBBTABATGAGGG Visualisation : Diagramme en Barres en fréquences TABTGTBAATAABGBATGTTABB T AGAAGGA G B Série unidimensionnelle de taille A 0 0,05 0,1 0,15 0,2 0,25 0,3 100 de la variable qualitative « base Indicateur: Modes=C et G du brin d’ADN ». A- Introduction Exemple : Série des âges de 50 salariés classes centres amplitudes effectifs frequences eff. Cum. freq. Cum. dans une entreprise (18.3,26] 22,15 7,7 7 0,14 7 0,14 (26,33.7] 29,85 7,7 8 0,16 15 0,3 36.44460 30.63702 30.36399 56.13572 (33.7,41.5] 37,6 7,7 8 0,16 23 0,46 62.31707 48.87932 25.22967 45.07674 (41.5,49.2] 45,35 7,7 10 0,2 33 0,66 41.22021 18.45797 46.82866 57.83412 (49.2,56.9] 53,05 7,7 7 0,14 40 0,8 26.93824 51.17832 42.42865 25.00991 (56.9,64.7] 60,8 7,7 10 0,2 50 1 39.49332 61.49174 41.12957 48.73509 24.84856 62.86307 31.46099 18.30140 H is to g r a m m e e n fr é q u e n c e s d e la s é r ie c la s s é e box-plot de la série 58.65384 22.66574 28.69191 43.23656 0.025 60 29.99305 37.23314 25.34647 56.18528 0.020 59.60421 56.78237 34.86674 55.49477 50 52.80441 58.90374 64.61624 57.62305 0.015 age Density 40 41.92750 39.26187 43.79833 33.12420 0.010 44.39254 58.30465 30.01482 56.69020 30 45.00456 39.18792 0.005 20 0.000 Série unidimensionelle de la variable 10 20 30 40 50 60 70 quantitative continue « age ». a Min. Q1 Median Mean Q3 Max. 18.30 30.84 42.83 42.95 56.17 64.62 A- Introduction nuage de points des variables dist et speed Ex: observation de la vitesse et de la 25 distance de freinage de 50 voitures. 20 speed dist 1 4 2 vitesse 15 2 4 10 3 7 4 10 4 7 22 5 8 16 5 6 9 10 7 10 18 0 20 40 60 80 100 120 8 10 26 distance de freinage 9 10 34 10 11 17 11 11 28 ……………… B- Statistique descriptive unidimensionnelle 1-Généralités 2- Etude d’une variable quantitative 3- Etude d’une variable qualitative B-1 Généralités 9On considère une variable statistique X, observée sur n individus. On dispose alors d’une série statistique unidimensionnelle x = ( x1 ,..., xn ) que l’on peut mettre sous forme d’un tableau de données : xi = valeur de X pour l'individu i de la série. 9On veut mettre en évidence les principales caractéristiques de la série. B-1 Généralités 9 effectif d’une valeur de X : nb. ménage Nb. d’individus ayant cette valeur. ni d’enfants X 1 3 9 fréquence d’une valeur de X : prop. ni d’individus ayant cette valeur : f i = 2 2 n 3 5 9 effectif cumulé de la i°valeur de X : 4 3 nb. d’individus ayant l’une des i 5 6 6 3 premières valeurs de X : 7 5 i 8 5 N i = ∑ n j = n1 + n2 +... + n j +...ni 9 1 j =1 10 5 Table des fréquences : 9 fréquence cumulée d’une valeur de X : prop. des individus ayant l’une valeurs de X effectif effectif cum. fréquence fréq. Cum 1 1 1 0.1 0.1 des i premières valeurs de X : 2 1 2 0.1 0.2 i 3 3 5 0.3 0.5 Fi = ∑ f j = f1 + f 2 +... + f j +... fi 5 6 4 1 9 10 0.4 0.1 0.9 1 j =1 B-2 Etude d’une variable quantitative ¾ Les différentes étapes de l’étude 9 Construction de la table des fréquences (par valeurs ou classes de valeurs). 9 Visualisation de la distribution des fréquences (ou des effectifs) de la série. 9 résumé des caractéristiques de la série par des indicateurs et des graphiques. B-2.1 Etude d’une variable quantitative: Table des fréquences Variable quantitative discrète Variable quantitative continue 9 Création d’une série classée 9 classement des valeurs de x par regroupement des valeurs de x en m ordre croissant classes (intervalles) disjointes de valeurs: I = [ d , d [ k k k +1 9 Définitions : 9 Dénombrement des m valeurs borne inférieure (resp.supérieure) distinctes de la série de la classe I k : d k (resp. d k +1 ) ν 1 <... < ν k < ν m amplitude de I k : ak = d k +1 − d k centre de I k : ck = 12 (d k + d k +1 ) 9 NB : classement d’une série ⇒ perte d’information; la constitution des classes est une étape délicate. B-2.1 Etude d’une variable quantitative: Table des fréquences B-2.1 Etude d’une variable quantitative: Table des fréquences ménage Nb. d’enfants menage 1 2 3 4 5 6 7 8 9 10 1 X 3 superficie 8 8,5 10 12,5 11 13 20 25 33 15 2 2 3 5 9 Nombre de classes par la règle de Sturges : 4 3 k~5, amplitude des classes égales à E/k 5 6 =33-8/5=5. 6 3 7 5 8 5 9 1 9 Classes : [8,13[,[13,18[, [18,23[, 10 5 [23,28[,[28,33]. 9 Classement : 1,2,3,3,3,5,5,5,5,6 9 Table des fréquences : 9 Modalités : 1,2,3,5,6 classes centres eff. eff.cum freq. freq.cum. [8,13[ 10,5 5 5 0,5 0,5 9 Table des fréquences : [13,18[ 15,5 2 7 0,2 0,7 valeurs de X effectif effectif cum. fréquence fréq. Cum [18,23[ 20,5 1 8 0,1 0,8 1 1 1 0.1 0.1 [23,28[ 15,5 1 9 0,1 0,9 2 1 2 0.1 0.2 [28,33] 30,5 1 10 0,1 1 3 3 5 0.3 0.5 5 4 9 0.4 0.9 6 1 10 0.1 1 B-2.1 Etude d’une variable quantitative: Table des fréquences Info Règle de constitution des classes · Le nombre de classes ne devrait être ni inférieur à 5, ni supérieur à 20 (il varie généralement entre 6 et 12). Ce choix est fonction du nombre d'observations et de leur dispersion. En pratique, on peut utiliser la formule de Sturges : le nombre k indiqué de classes pour une série de n observations est donné approximativement par : k = 1 + 3,322log10 n Cependant, le choix définitif du nombre de classes sera dicté par un souci de clarté. · Il s'agit ensuite de choisir l'amplitude des classes. On les choisit généralement égales, d'amplitude approximativement égale à a=E/k où E = xmax − xmin est l’étendue de la série. B-2.2 Etude d’une variable quantitative: Visualisation Variable quantitative discrète Variable quantitative continue Diagramme en bâtons : valeurs histogramme : rectangles juxtaposés de X en abscisse, bâton de longueur de base égale à ak et de hauteur égale à la fréquence (ou à l'effectif) proportionnelle à la fréquence (ou de ces valeurs en ordonnée. effectif). Généralement, on prend comme hauteur f k / ak ( l’aire de l’histogramme est égale à 1). B-2.2 Etude d’une variable quantitative: visualisation B-2.2 Etude d’une variable quantitative: Visualisation Remarques : 9 La distribution des fréquences d'une série statistique de la variable X, considérée comme un échantillon prélevé sur une population est une approximation de la distribution de probabilité de cette variable sur la population. C’est pourquoi il est préférable de tracer le diagramme en bâtons ou l’histogramme en fréquences plutôt que celui en effectifs 9 La visualisation d’une série en fréquence permet la comparaison de plusieurs échantillons de tailles différentes. B-2.2 Etude d’une variable quantitative: Visualisation 9 Variable quantitative continue : les polygones des fréquences cumulées Objectif : Outils utiles pour répondre à des questions du type : quelle est la proportion (ou le nombre) de ménages ayant un logement de moins de 20 m% ? entre 40 et 60 m² ? Quelle est la valeur de la médiane (des quantiles) de la distribution ? Polygones des frequences cumulés 8 0 1 13 0,5 0,5 1,2 1 18 0,7 0,3 0,8 0,6 23 0,8 0,2 0,4 28 0,9 0,1 0,2 0 33 1 0 0 5 10 15 20 25 30 35 superficie frequences croissantes frequences decroissantes B-2.2 Etude d’une variable quantitative: Visualisation Méthode : – Faire un tableau : – Le polygone en fréquences croissantes (resp. décroissantes) est obtenu en traçant les points de coordonnées (d k , pk ) (resp. (d k , qk)) et en interpolant linéairement entre ces points. B-2.3 Etude d’une variable quantitative: Indicateurs 9 Objectif : caractériser la distribution de la série à l’aide de nombres et éventuellement de graphiques résumant de façon suffisamment complète l'ensemble ses valeurs. Ces indicateurs faciliteront la comparaison d'échantillons. 9 3 types d’indicateurs : Indicateurs de tendance centrale Indicateurs de dispersion Indicateurs de forme B-2.3 Etude d’une variable quantitative: Indicateurs serie de moyenne 0 serie de moyenne 4 Indicateurs de tendance centrale : 0.4 0.4 fournissent l'ordre de grandeur des 0.2 0.2 valeurs de la série et la position où 0.0 0.0 se rassemblent ces valeurs. -4 -2 0 2 4 0 2 4 6 8 Indicateurs de dispersion : serie de variance 1 serie de variance 0.5 quantifient les fluctuations des 0.4 0.8 valeurs autour de la valeur centrale. 0.2 Permettent d'apprécier l'étalement 0.4 des valeurs de la série (les unes par 0.0 0.0 rapport aux autres ou à la valeur -4 -2 0 2 4 -4 -2 0 2 4 centrale). serie symétrique serie asymétrique Indicateurs de forme : donnent une 0.4 0.20 idée de la symétrie et de 0.2 0.10 l'aplatissement d'une distribution. 0.00 0.0 Leur usage est moins fréquent. -4 -2 0 2 4 0 5 10 15 20 B-2.3 Etude d’une variable quantitative: Indicateurs de tendance centrale ¾ La moyenne arithmétique 9 Définition 1 n x + x +... + xi +... + xn x = ∑ xi = 1 2 n i =1 n 1 k Sur une série discrète : x = ∑ ni vi n i =1 1 k Sur série continue classée : x ≈ ∑ ni ci (perte d’information) n i =1 B-2.3 Etude d’une variable quantitative: Indicateurs de tendance centrale n 9 Propriétés ∑ (x − x ) = 0 i =1 i La moyenne de la série ( ax1 + b,..., axn + b) est ax + b Lorsque la distribution des fréquences est symétrique par rapport à la droite x=a, la moyenne vaut a. 9 Limites Indicateur très affecté par les valeurs extrêmes (attention aux points aberrants). B-2.3 Etude d’une variable quantitative: Indicateurs de tendance centrale ¾ La médiane 9 Définition : c’est la valeur observée ou possible de la série ordonnée en ordre croissant ou décroissant, qui partage cette série en deux sous-séries, chacune comprenant le même nombre d'observations. Me = x( n+1) / 2 si n impair x( n / 2) + x( n / 2) +1 si n pair Me = 2 NB : Si la variable est discrète et n pair, il se peut qu'il n'y ait pas de valeur médiane car Me doit correspondre à une valeur possible de la série. Ex : dans la série du nombre d’enfants : 1,2,3,3,3,5,5,5,5,6, Me=4. dans la série de la superficie : 8,8.5,10,11,12.5,13,15,20,25,33, Me=12,75. B-2.3 Etude d’une variable quantitative: Indicateurs de tendance centrale 9 Limites : La médiane est plus robuste que la moyenne (pas influencée par les valeurs extrêmes) mais elle est influencée par le nombre d’observations. Remarque : La médiane correspond à la valeur telle que la fréquence cumulée est égale à ½. B-2.3 Etude d’une variable quantitative: Indicateurs de tendance centrale 9 CP d’une série continue classée: Ex : Série superficie : Approximation de Me à partir Par la définition : Me=12. 75 de la table des fréquences par Par interpolation : Me~13 interpolation linéaire. Repérage de la classe médiane = Polygones des frequences cumulés première classe contenant au 1,2 moins 50% des effectifs cumulés 1 0,8 I j = [d j , d j +1[ 0,6 0,4 0,2 0 Interpolation linéaire 0 5 10 15 20 25 30 35 n − N j −1 superficie Me ≈ d j + 2 × aj frequences croissantes frequences decroissantes Me nj B-2.3 Etude d’une variable quantitative: Indicateurs de tendance centrale ¾ Le mode 9 Définition : c’est la valeur qui a été observée le plus grand nombre de fois. NB : Dans le cas d'une variable continue en classes, ce critère est peu objectif. On parlera plutôt de classe modale : classe ayant la fréquence la plus élevée. Le mode n’est pas unique. Ex : série nombre d’enfants : mode=5; série superficie : intervalle modal= [8,13[. B-2.3 Etude d’une variable quantitative: Indicateurs de tendance centrale Info B-2.3 Etude d’une variable quantitative: Indicateurs de dispersion ¾ La variance et l'écart-type de la série 9 Définition : La variance est la somme pondérée des carrés des écarts des valeurs de la série à la moyenne. 1 n Variance de la série s = s ( x) = ∑ ( xi − x )² 2 x 2 n i =1 1 n Variance d’échantillonnage s = s ( x) = *2 x *2 ∑ n − 1 i =1 ( xi − x )² L’écart type est la racine carrée de la variance sx = sx2 s*x = s*2 x B-2.3 Etude d’une variable quantitative: Indicateurs de dispersion Lorsque la série est un échantillon issu d’une population et que l’on s’intéresse aux caractéristiques de cette population via l’échantillon (inférence), on utilise plutôt sn*² qui est un meilleur estimateur de la variance théorique de la population. Dès lors que la taille n de la série est assez grande, ces deux quantités sont pratiquement égales. Info B-2.3 Etude d’une variable quantitative: Indicateurs de dispersion 9 Propriétés ( sn² ou sn*² ) La variance (ou écart-type) est toujours positive ou nulle s ² x ≥ 0 sx ≥ 0 La variance est une forme quadratique sax2 +b = a ² sx2 sax +b = a sx n − 1 *2 Théorème de Koenig sx2 = sx = x ² − x ² n Une série peu dispersée (ayant des valeurs regroupées autour de la valeur moyenne) aura un écart-type plutôt faible. Remarque : Pour une distribution symétrique, pratiquement toutes les observations sont situées entre x-3s et x+3s. B-2.3 Etude d’une variable quantitative: Indicateurs de dispersion Lorsqu’on fait de l’inférence, un faible écart-type de l’échantillon permettra d'indiquer avec une plus grande précision entre quelles valeurs peuvent varier les caractéristiques de la distribution de la variable étudiée sur la population. info B-2.3 Etude d’une variable quantitative: Indicateurs de dispersion 9 Calcul pratique de la variance (ou de l’écart-type): Par la définition Par la formule de Koenig A partir de la table des fréquences 1 k s = ∑ ni (vi − x )² 2 x n i =1 – Pour une série discrete 1 k – Pour une serie en classes s ≈ ∑ ni (ci − x )² 2 x n i =1 B-2.3 Etude d’une variable quantitative: Indicateurs de dispersion ¾ Une mesure de la dispersion relative : le coefficient de variation sX CV =.100 x Le CV permet d'apprécier la représentativité de la moyenne par rapport à l'ensemble des observations. Il donne une bonne idée du degré d'homogénéité d'une série. Il faut qu'il soit le plus faible possible (