PRST1 - Statistique Descriptive PDF

Document Details

EliteJasper3003

Uploaded by EliteJasper3003

École Nationale Supérieure d'Informatique (ESI) Alger

Tags

descriptive statistics statistics data analysis probability

Summary

This document is module notes about descriptive statistics, covering definitions, types of characters, representation of data, and characteristics of dispersion. It is primarily focused on a module called PRST1, in a course called 2CP, in a school named ESI Alger.

Full Transcript

– Résumé – Chapitre 1 : « La Statistique Descriptive » – Module – PRST1 – 2CP – S1 1. Définitions :  Population statistique 𝛀 : ensemble d’objets/personnes concerné par une étude statistique. Population 𝛀  Individu/unité statistiqu...

– Résumé – Chapitre 1 : « La Statistique Descriptive » – Module – PRST1 – 2CP – S1 1. Définitions :  Population statistique 𝛀 : ensemble d’objets/personnes concerné par une étude statistique. Population 𝛀  Individu/unité statistique : un élément de la population (𝛚 ∈ 𝛀 ).  Échantillon : un sous-ensemble/groupe représentatif issu de la population. Échantillon  Caractère (variable aléatoire) X : une propriété commune des individus de la population.  Modalité 𝒙𝒊 : Situations possibles d’un caractère (valeurs prises par la variable aléatoire). Unité (individu) ω  Effectif (fréquence absolue) 𝒏𝒊 : Nombre d’individus présentant une modalité.  Série (distribution) statistique {𝒙𝒊 , 𝒏𝒊 } : l’ensemble des modalités et des effectifs d’un caractère. Exemple : o Population : les étudiants de 2CP à ESI Alger. population o Individu (unité) : un étudiant de 2CP à ESI Alger. individu/unité o Échantillon : les étudiants de groupe 08 o Caractères : couleur des yeux, poids, taille, moyenne, … échantillon o Modalité de « Couleur des yeux » : marron, vert, bleu, noir, … o Un effectif de cette modalité : nombre d’étudiants avec des yeux noirs. N = 12 2. Types de caractères (variables) statistiques : Caractère plusieurs modalités Couleur des Taille, poids, yeux, … Qualitatif Quantitatif moyenne, … Les modalités (rubriques) ne sont Les modalités sont mesurables par pas mesurables par des chiffres des chiffres Nombre d’enfants Salaire mensuel ([0 – 20000[ , [20000 – 25000[, …) (1, 2, 3, 4, …) Discret (discontinu) Continu Les modalités sont des Les modalités sont représentées par des chiffres isolés classes (intervalles) 3. Représentation des données : 1. Tableau statistique : Il résume les modalités et les effectifs des différents caractères. Sa dimension est relative au nombre de caractères que l’on retient. o Cas (1) : Caractère quantitatif discret : Tableau statistique de distribution de (P) selon X :  Effectif total : Modalités (𝒙𝒊 ) Effectifs (𝒏𝒊 ) Fréquences (𝒇𝒊 ) 𝒏 = ∑𝒌𝒊=𝟏 𝒏𝒊 (k = nombre de modalités) 𝑥1 𝑛1 𝑓1  Fréquence relative (proportion des individus présentant 𝑥2 𝑛2 𝑓2 la même modalité dans la population) : 𝒏𝒊 𝒏𝒊 𝑥3 𝑛3 𝑓3 𝒇𝒊 = 𝒇𝒊 % = × 𝟏𝟎𝟎 𝒏 𝒏 𝛴 n = 𝑛1 + 𝑛2 + 𝑛3 𝑓1 + 𝑓2 + 𝑓3 = 1 On a : 𝛴𝒇 𝒊 = 𝟏 et 𝛴 𝒇𝒊 % = 𝟏𝟎𝟎 o Cas (2) : Caractère quantitatif continu : Tableau statistique de distribution de (P) selon X : Modalités (𝒙𝒊 ) Effectifs (𝒏𝒊 ) Fréquences (𝒇𝒊 %)  Centre (milieu) d’une classe : [𝑒0 − 𝑒1 [ 𝑛1 𝑓1 % 𝑒𝑖 + 𝑒𝑖+1 𝒄𝒊 = [𝑒1 − 𝑒2[ 𝑛2 𝑓2 % 𝟐 [𝑒2 − 𝑒3 [ 𝑛3 𝑓3 %  Amplitude d’une classe : 𝒂𝒊 = 𝑒𝑖 − 𝑒𝑖+1 𝛴 n = 𝑛1 + 𝑛2 + 𝑛3 𝑓1 % + 𝑓2 % + 𝑓3 % = 100 2. Représentation graphique : Caractère quantitatif Caractère qualitatif Discret Continu  Diagramme à secteurs circulaires : (Variable statique discrète VSD) (Variable statique continue VSC) Chaque modalité de fréquence 𝑓𝑖 (ou d’effectif 𝑛𝑖 ) est  Histogramme : représentée par un angle 𝛼𝑖  Diagramme en bâtons : A chaque classe 𝑐𝑖 , on fait correspondre la surface d’un 𝑛𝑖 A chaque modalité 𝑥𝑖 , on fait rectangle ayant pour base l’amplitude 𝑎𝑖 𝛼𝑖 = × 𝟑𝟔𝟎 ou 𝛼𝑖 = 𝑓𝑖 × 𝟑𝟔𝟎 𝑛 correspondre un bâton de longueur proportionnelle à 𝑓𝑖 ou 𝑛𝑖 Hauteur du rectangle : Amplitude constante : ℎ𝑖 = 𝑓𝑖 ou 𝑓𝑖 % ou 𝑛𝑖 Amplitude variable : 𝑎 𝑎 ℎ𝑖 = 𝑓𝑖 × 𝑎 ou 𝑛𝑖 × 𝑎 𝑖 𝑖 avec 𝑎 = amplitude unité (la plus petite amplitude, ou le PGCD des 𝑎𝑖 )  Graphique en tuyaux d’orgues : Les hauteurs des rectangles de base constante sont proportionnelles aux fréquences/effectifs.  Polygone des fréquences :  Polygone des fréquences : Le polygone joint les milieux des sommets des rectangles 𝑛25𝑖 Le polygone joint les sommets des bâtons des classes d’amplitudes égales d’un histogramme. 20 d’un diagramme. 15 10 5 0 x𝑖  Courbe cumulative : Elle représente les fréquences cumulées croissantes/décroissantes. Chaque point du graphe a pour coordonnées : (𝑥𝑖 , 𝑁𝑖 ) ou (𝑥𝑖 , 𝐹𝑖 ). Fréquences cumulées :  Fréquences cumulées croissantes (ascendantes) : dans une colonne du tableau, on somme les fréquences 𝑓𝑖 (ou absolue 𝑛𝑖 ) de haut en bas. Les fréquences cumulées sont dites croissantes, notées : 𝑓𝑖𝑐𝑐 ou 𝐹𝑖 (𝑛𝑖𝑐𝑐 ou 𝑁𝑖 ). Elles correspondent à la notion « moins de ».  Fréquences cumulées décroissantes (descendantes) : dans une colonne du tableau, on somme les fréquences 𝑓𝑖 (ou absolue 𝑛𝑖 ) de bas en haut. Les fréquences cumulées sont dites décroissantes, notées : 𝑓𝑖𝑐𝑑 (𝑛𝑖𝑐𝑑 ). Elles correspondent à la notion « plus de ». Cas EXEMPLE : COURBE CUMULATIVE DES FREQUENCES CROISSANTES Cas discret continu Fonction de répartition :  La fonction de répartition associe, à tout réel 𝑥𝑖 , la probabilité d’obtenir une valeur inférieure ou égale. Elle est définie par : 𝑭(𝒙) = ∑𝒊𝒌=𝟏 𝒇𝒌  La courbe cumulative est la représentation graphique de la fonction de répartition F.  𝐹(𝑥 ) représente la surface située à gauche de la valeur x dans la courbe : 𝑭(𝒙) = ∫𝟎 𝒇(𝒙)𝒅𝒙 𝒙  𝐹(−∞) = 0 et 𝐹(+∞) = 1 (F varie de 0 à 1) 3. Caractéristiques (paramètres) statistiques : A. Caractéristiques de position (tendance centrale) : a. Le mode (MO): Le mode est la valeur de la variable statistique qui correspond au plus grand effectif. Cas discret Cas continu Sur le tableau {𝑥𝑖 , 𝑓𝑖 }, le mode est le 𝑥𝑖 pour lequel 𝑓𝑖 est la plus élevée. Sur La classe modale est la classe du tableau {𝑥𝑖 , 𝑓𝑖 } ou de l’histogramme le diagramme en bâtons, c’est le 𝑥𝑖 correspondant au bâton le plus haut. correspondant à la fréquence maximum après correction des fréquences Exemple : pour la série {5, 6, 7, 7, 8, 8, 8, 9, 11}, MO = 8 dans le cas où les amplitudes des classes sont inégales. Remarque : une série statistique peut avoir plusieurs modes (avec la même fréquence) et peut n’avoir aucun mode (si toutes les fréquences sont égales). b. La médiane (Me) : La médiane est le caractère qui partage la série en 2 sous-ensembles égaux, en supposant qu’elle est ordonnée. Cas discret 𝒏+𝟏 è𝒎𝒆  Si le nombre d’observations (n) est impair (𝑛 = 2𝑘 + 1), Me correspond à la ( ) valeur de la série ordonnée. 𝟐 Exemple : pour la série {6,7,12,30,46}, 𝑛 = 5 (impair), et 𝑀𝑒 = 12 (5ème valeur).  Si n est pair (𝑛 = 2𝑘), on définit un intervalle médian. Me est approchée par la moyenne de la kème et (k+1)ème observation de la série ordonnée. 𝟏𝟓+𝟐𝟏 Exemple : pour la série {3, 6, 12, 15, 21, 28, 32, 38} : 𝑛 = 2 × 4 = 8 (𝑘 = 4) l’intervalle médian est : [15, 21[ et 𝑴𝒆 = = 𝟏𝟖 𝟐  Dans le cas des données groupées {𝑥𝑖 , 𝑛𝑖 }, la médiane se calcule par les fréquences cumulées. On repère la valeur 0.5 ou 𝒏⁄𝟐 sur le graphe ou sur le tableau. Si la valeur apparaît « entre 2 lignes » du tableau, la médiane est la valeur de xi qui correspond à la ligne la plus basse. Cas continu  Pour déterminer la classe médiane, on repère 0.5 dans la colonne des Fi (𝒏⁄𝟐 sur la colonne des Ni) ou sur le graphe de la courbe cumulative. Si cette valeur correspond à une valeur de l’extrémité de la classe, la médiane est une valeur exacte. Sinon (elle est comprise entre deux extrémités de classe), on a un intervalle (classe) médiane. 𝑎𝑖 (𝑀𝑒 )  Dans le 2ème cas (classe médiane), on calcul la médiane par interpolation linéaire : 𝑀𝑒 = 𝑒𝑖 (𝑀𝑒 ) + (𝑀𝑒 ) (0.5 − 𝐹𝑖 (𝑀𝑒 )) 𝑓𝑖 Où : 𝑎𝑖 (𝑀𝑒) est l’amplitude de la classe médiane [𝑒𝑖 (𝑀𝑒 ) − 𝑒𝑖+1 (𝑀𝑒 ) [, 𝑓𝑖 (𝑀𝑒) sa fréquence relative et 𝐹𝑖 (𝑀𝑒) sa fréquence cumulée. Remarque : La formule peut s’écrire, selon les fréquences utilisées : 𝑎𝑖 (𝑀𝑒 ) 𝑛 (𝑀𝑒 ) 𝑎𝑖 (𝑀𝑒 ) 𝑀𝑒 = 𝑒𝑖 (𝑀𝑒 ) + (𝑀𝑒 ) ( − 𝑁𝑖 ) 𝑀𝑒 = 𝑒𝑖 (𝑀𝑒 ) + (50 − 𝐹𝑖 %(𝑀𝑒 )) 𝑛𝑖 2 𝑓𝑖 %(𝑀𝑒 ) c. La moyenne arithmétique : Cas discret Cas continu 𝑘 𝑘 𝑛 𝑛 1 1 𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖 = ∑ 𝑓𝑖 𝑥𝑖 𝑥̅ = ∑ 𝑛𝑖 𝑐𝑖 = ∑ 𝑓𝑖 𝑐𝑖 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑒𝑖 + 𝑒𝑖+1 Avec : 𝑛 = ∑𝑘 𝑖=1 𝑛𝑖 Avec : 𝒄𝒊 = 𝟐 On doit ajouter au tableau la colonne « 𝒏𝒊 × 𝒙𝒊 » ou « 𝒇𝒊 × 𝒙𝒊 » On doit ajouter au tableau la colonne « 𝒏𝒊 × 𝒄𝒊 » ou « 𝒇𝒊 × 𝒄𝒊 » 1 1 Remarques : Si on partage une population P (n, 𝑥̅ ) en deux sous-populations P1(N1, ̅̅̅) 𝑥2 on aura : 𝑥̅ = 𝑥1 et P2(N2, ̅̅̅), (N1 𝑥̅1 + N2 𝑥̅2) = ∑2𝑖=1 𝑁𝑖 𝑥̅𝑖. 𝑛 𝑛 𝟏 ̅ = En général, pour 𝒓 sous-populations de P, on a : 𝒙 ∑𝒓 𝑵 𝒙̅ 𝒏 𝒊=𝟏 𝒊 𝒊 On dit que la variable statistique y est centrée ⇔ 𝒚 ̅ = 𝟎 (sa moyenne arithmétique est nulle). Propriétés de la moyenne arithmétique i. ̅̅̅̅̅̅̅̅ 𝒙−𝒙 ̅ = ∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 − 𝒙 ̅) = 𝟎 ii. ̅̅̅̅̅̅̅̅̅̅̅̅ (𝑿 − 𝒂)² = ∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 − 𝒂)² est iii. ∀𝒂, 𝒃 ∈ ℝ, 𝑿 = 𝒂. 𝑿′ + 𝒃 (𝑥 − 𝑥̅ est centrée, ∀𝑥 variable statistique) minimale pour 𝒂 = 𝒙 ̅ ̅ = 𝒂. ̅̅̅ ⇒𝑿 𝑿′ + 𝒃 Preuve : Preuve : Preuve : On pose : 𝑆 (𝑎) = ∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑎)² et on Supposons que X et X’ sont deux variables ̅̅̅̅̅̅̅̅ Par définition : 𝑥 − 𝑥̅ = ∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ ) montre que 𝑥̅ est un minimum de S, c-à-d : statistiques tq 𝑋 = 𝑎. 𝑋 ′ + 𝑏 𝑘 𝑘 ̅) = 𝟎 et 𝑺′′(𝒙 𝑺′(𝒙 ̅) > 𝟎 ⇒ ̅̅̅̅̅̅̅̅ 𝑥 − 𝑥̅ = ∑ 𝑓𝑖 𝑥𝑖 − ∑ 𝑓𝑖 𝑥̅ 1) 𝑆 ′ (𝑥̅ ) = ∑𝑘𝑖=1 𝑓𝑖 (−2(𝑥𝑖 − 𝑥̅ )) 𝑘 𝑘 𝑖=1 𝑖=1 𝑘 𝑋̅ = ∑ 𝑓𝑖 𝑋𝑖 = ∑ 𝑓𝑖 (𝑎. 𝑋𝑖 ′ + 𝑏) 𝑘 𝑆 ′ (𝑥̅ ) = −2 ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ ) = −2(̅̅̅̅̅̅̅̅ 𝑥 − 𝑥̅ ) = 𝟎 𝑖=1 𝑖=1 ⇒ ̅̅̅̅̅̅̅̅ 𝑥 − 𝑥̅ = 𝑥̅ − 𝑥̅ ∑ 𝑓𝑖 𝑖=1 𝑘 𝑘 𝑖=1 2) ′( 𝑆′ 𝑥̅ ) = −2 ∑𝑘𝑖=1 𝑓𝑖 (−1) = +2 ∑𝑘𝑖=1 𝑓𝑖 ′ ̅̅̅ + 𝒃 𝑋̅ = 𝑎 ∑ 𝑓𝑖 𝑋𝑖 + 𝑏 ∑ 𝑓𝑖 = 𝒂𝑿′ ⇒ ̅̅̅̅̅̅̅̅ 𝑥 − 𝑥̅ = 𝑥̅ − 𝑥̅ = 𝟎 𝑖=1 𝑖=1 𝑆 ′′ (𝑥̅ ) = 2 ∗ 1 = 2 > 𝟎 d. Comparaison entre la moyenne, le mode et la médiane : e. Les quantiles (généralisation de la médiane) : Les quantiles (percentiles) correspondent à des valeurs de la VS qui partagent la série statistique ordonnée en M parties égales. M = 4 (quartiles) M = 10 (déciles) M = 100 (centiles) 10% ………………………..…....................... 10% 1% ………………………..…....................... 1% 25% 25% 25% 25% Q1 Q2 Q3 D1 D2 D3 D4 D5 D6 D7 D8 D9 C1 ………………………..…............... C99  On a trois quartiles (Q1, Q2 et Q3)  On a neuf déciles (D1, D2, …, D9)  On a 99 centiles (C1, C2, …, C99)  Q2 = Me  D5 = Me  C50 = Me  Intervalle interquartiles : Q3 – Q1 (il  Intervalle interdéciles : D9 – D1 (il  Intervalle intercentiles : C99 – C1 (il comporte 50% des observations) comporte 80% des observations) comporte 98% des observations). Remarque : On peut déterminer n’importe quel quantile de la courbe cumulative ascendante ou à partir de la formule d’interpolation linéaire (VSC) : 𝑎𝐼 𝜉𝑝 = 𝑒𝐼 + (𝑝. 𝑛 − 𝐹𝐼 ) Par exemple : Q1 correspond à p = 25% = 25/100 = 0.25 𝑓𝐼 𝜉𝑝 : quantile désiré ; 𝒆𝑰 : borne inférieure de la classe I qui le contient ; 𝒑 : pourcentage des observations à laquelle correspond le quantile ; 𝒏 : nombre totale d’observations ; 𝒇𝑰 , 𝒂𝑰 , 𝑭𝑰 : fréquence, amplitude et fréquence cumulée de la classe I B. Caractéristiques de dispersion : a. L’étendu E : 𝑬 = 𝑿𝒌 − 𝑿𝒍 𝑋𝑘 : la plus grande valeur de la variable X 𝑋𝑙 : la plus petite valeur de la variable X b. Écart absolu moyen : C’est la moyenne arithmétique des écarts par rapport à une valeur centrale : la moyenne arithmétique ou la médiane. 1 1) Par rapport à ̅ 𝒙: 𝑒𝑥̅ = ∑𝑘𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑥̅ | = ∑𝑘𝑖=1 𝑓𝑖 |𝑥𝑖 − 𝑥̅ | avec : 𝑛 = ∑𝑘 𝑖=1 𝑛𝑖 𝑛 1 2) Par rapport à 𝑴𝒆 : 𝑒𝑀𝑒 = ∑𝑘𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑀𝑒 | = ∑𝑘𝑖=1 𝑓𝑖 |𝑥𝑖 − 𝑀𝑒 | avec : 𝑛 = ∑𝑘 𝑖=1 𝑛𝑖 𝑛 Dans le cas continu, on c. Écart-type et variance : remplace 𝑥𝑖 par 𝒄𝒊 𝟏 1) Écart-type : 𝝈(𝒙) = √𝒏 ∑𝒌𝒊=𝟏 𝒏𝒊 (𝒙𝒊 − 𝒙 ̅ )² = √∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 − 𝒙 ̅ )² 2) Variance : 𝑽(𝒙) = 𝝈(𝒙)𝟐 ⇔ 𝝈(𝒙) = √𝑽(𝒙) Remarque : Si on partage une population P (n, 𝑥̅ ) en deux sous-populations P1(N1, ̅̅̅) 𝑥1 et P2(N2, ̅̅̅), 𝑥2 on aura : 1 ̅𝟏 − 𝑥̅ )2 + N1 (𝒙 𝑉(𝑥) = ( N1 𝑉(𝑥1 ) + N2 𝑉 (𝑥2 ) + N1 (𝒙 ̅𝟐 − 𝑥̅ )2 ) 𝑛 1 En général, pour 𝒓 sous-populations de P, on a : 𝑉(𝑥) = (∑𝑟𝑖=1 Ni 𝑉(𝑥𝑖 ) + ∑𝑟𝑖=1 Ni (𝒙 ̅𝒊 − 𝑥̅ )2 ) 𝑛 Propriétés de la variance i. 𝑽(𝒙) = ∑𝒌𝒊=𝟏 𝒇𝒊 𝒙𝒊 ² − 𝒙 ̅² ii. ∀𝒂, 𝒃 ∈ ℝ, 𝒂 ≠ 𝟎, 𝑿 = 𝒂. 𝑿′ + 𝒃 ⇒ 𝑽(𝑿) = 𝒂²𝑽(𝑿′) Preuve : Preuve : 𝑘 𝑘 𝑘 𝑘 𝑘 2 ̅ )2 = ∑ 𝑓𝑖 (𝑎𝑥 ′ 𝑖 + 𝑏 − 𝑥 𝑉 (𝑥 ) = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥 ̅ − 𝑏)2 ̅ )2 = ∑ 𝑓𝑖 (𝑎𝑥 ′ 𝑖 + 𝑏 − 𝑎𝑥′ 𝑉 (𝑥 ) = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥 ̅ )2 = ∑ 𝑓𝑖 (𝑥2𝑖 − 2𝑥𝑖 𝑥 ̅+ 𝑥 ̅ ) 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑘 𝑘 2 𝑘 𝑘 𝑘 𝒌 ̅ )) = 𝑎² ∑ 𝑓 (𝑥 ′ − 𝑥′ 𝑉(𝑥 ) = ∑ 𝑓𝑖 (𝑎(𝑥 ′ 𝑖 − 𝑥′ ̅ )² = 𝒂²𝑽(𝒙′) 𝑖 𝑖 2 𝟐 𝑉 (𝑥 ) = ∑ 𝑓𝑖 𝑥𝑖2 − 2𝑥 ̅ ∑ 𝑓𝑖 = ∑ 𝒇𝒊 𝒙𝟐𝒊 − 𝒙 ̅ ∑ 𝑓𝑖 𝑥𝑖 + 𝑥 ̅ 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝒊=𝟏 ̅ = 𝒂. ̅̅̅ 𝑿 𝑿′ + 𝒃 𝑥̅ 1 Propriété de l’écart-type ∀𝒂, 𝒃 ∈ ℝ, 𝒂 ≠ 𝟎, 𝑿 = 𝒂. 𝑿′ + 𝒃 ⇒ 𝝈(𝑿) = |𝒂| 𝝈(𝑿′) ̅ = 𝒂. ̅̅̅ 𝑿 𝑿′ + 𝒃 Preuve 𝑘 𝑘 𝑘 2 ̅ − 𝑏)2 ̅ )2 = √∑ 𝑓𝑖 (𝑎𝑥 ′ 𝑖 + 𝑏 − (𝑎𝑥̅′ + 𝑏)) = √∑ 𝑓𝑖 (𝑎𝑥 ′ 𝑖 + 𝑏 − 𝑎𝑥′ 𝜎 (𝑥 ) = √∑ 𝑓𝑖 (𝑥𝑖 − 𝑥 𝑖=1 𝑖=1 𝑖=1 𝑘 𝑘 2 𝜎 (𝑥) = √∑ 𝑓𝑖 (𝑎(𝑥 ′ − ̅ ))2 = √𝑎2 ∑ 𝑓 (𝑥 ′ − 𝑥̅′ ) = |𝒂| 𝝈(𝒙′) 𝑥′ 𝑖 𝑖 𝑖 𝑖=1 𝑖=1 d. Coefficient de variation : C’est un coefficient positif sans dimension qui sert à rendre les comparaisons entre les séries statistiques plus aisées. 𝝈(𝒙) 𝜶= ̅ >𝟎 (plus le coefficient est élevé, plus la dispersion est forte) 𝒙 e. Intervalles interquantiles : Les intervalles les plus utilisés sont : Appellation Distance de l’intervalle Proportion des observations contenues Intervalle interquartiles Q3 – Q1 50% Intervalle interdéciles D9 – D1 80% C. Indicateurs de forme : Pour les distributions a. Moments centrés 𝝁𝒓 : uni-modales (qui ont 𝒌 𝒌 𝟏 un seul mode) ̅ )𝒓 = ̅̅̅̅̅̅̅̅̅̅̅ ̅ )𝒓 = ∑ 𝒇𝒊 (𝒙𝒊 − 𝒙 𝝁𝒓 = ∑ 𝒏𝒊 (𝒙𝒊 − 𝒙 (𝑿 − 𝒙 ̅ )𝒓 𝒏 𝒊=𝟏 𝒊=𝟏 𝝁𝟏 = ̅̅̅̅̅̅̅̅̅̅ 𝝁𝟐 = ̅̅̅̅̅̅̅̅̅̅̅ 𝟐 Cas particuliers : (𝑿 − 𝒙̅) = 𝟎 et (𝑿 − 𝒙 ̅ ) = 𝑽(𝑿) Remarques : 𝝁𝒓 (𝒀) ∀𝑎, 𝑏 ∈ ℝ, 𝒀 = 𝒂. 𝑿 + 𝒃 ⇒ 𝝁𝒓 (𝒀) = 𝒂𝒓 𝝁𝒓 (𝑿) ⇒ 𝝁𝒓 (𝑿) = 𝒂𝒓 b. Coefficient d’asymétrie de Fisher : 𝝁𝟑 𝝁𝟑 𝝁𝟑 Les moments centrés d’ordre impair 𝜸𝟏 = 𝟑⁄ = 𝟑⁄ = sont nuls pour une distribution (𝝁𝟐 ) 𝟐 𝑽(𝑿) 𝟐 𝝈(𝑿)𝟑 symétrique, négatifs pour une distribution étalée à gauche et positifs 𝛾1 est nul pour une distribution symétrique, négatif pour une distribution étalée à pour une distribution étalée à droite gauche et positif pour une distribution étalée à droite c. Coefficient d’aplatissement de Fisher : 𝝁𝟒 𝝁𝟒 𝜸𝟐 = − 𝟑 = −𝟑 (𝝁𝟐 )𝟐 𝑽(𝑿)𝟐  𝛾2 est nul (𝜸𝟐 = 𝟎) pour une distribution « normale ».  Si 𝜸𝟐 > 𝟎, on dira que les queues de la distribution sont plus aplaties i.e. le pic est moins plat, donc : la distribution est moins plate.  Si 𝜸𝟐 < 𝟎, on dira que les queues de la distribution sont moins aplaties i.e. le pic est plus plat, donc : la distribution est plus plate.

Use Quizgecko on...
Browser
Browser