Statistiques Descriptives - Étude Univariée (PDF)

Summary

Ce document présente les bases de la statistique descriptive, en particulier les études univariées.  Il détaille les notions de variables, de populations et d'échantillons, ainsi que les différentes formes de représentations de données (tableaux et graphiques).

Full Transcript

STATISTIQUE DESCRIPTIVE CHAPITRE 1 ETUDE UNIVARIEE PRESENTATION PRESENTATION NUMERIQUE NUMERIQUE ET GRAPHIQUE ET GRAPHIQUE D’UNE SERIE STATISTIQUE I. GENER...

STATISTIQUE DESCRIPTIVE CHAPITRE 1 ETUDE UNIVARIEE PRESENTATION PRESENTATION NUMERIQUE NUMERIQUE ET GRAPHIQUE ET GRAPHIQUE D’UNE SERIE STATISTIQUE I. GENERALITES ET DEFINITIONS On appelle statistiques (au pluriel) ou série statistique des collections de nombres présentées sous formes de tableaux ou de graphiques. La statistique (au singulier) est l’ensemble des méthodes scientifiques à partir desquelles on organise, présente et analyse les données numériques et qui permettent de tirer des conclusions et de prendre des décisions judicieuses. On appelle population l’ensemble d’individus que ce soient des personnes, des animaux, des plantes ou des objets. Une étude statistique porte généralement sur un caractère (c’est une « facette » que présente un individu) déterminé présenté par chacun des individus d’une population donnée. Exemple : étude statistique portant sur le poids de nouveau-nés, la taille, le taux de cholestérol, le taux d’urée sanguine de personnes d’une population. Remarque : Parfois on emploie le terme de variable statistique au lieu de caractère. L’étude statistique d’un phénomène doit comporter les quatre étapes suivantes : 1. Le recueil des données On considère une population de laquelle on veut faire une étude statistique portant sur un caractère présenté par chacun des individus. Il est généralement impossible de faire des observations sur chaque individu de la population soit à cause de l’effectif qui est trop grand, soit parce qu’elle est destructive (contrôle de qualité d’un produit) ; on devra choisir une partie composée de  individus appelée échantillon de taille . Le problème important en statistique consiste avant tout en le choix de l’échantillon. La méthode de choix de l’échantillon la plus fréquente est appelée méthode des sondages ; elle consiste à choisir au hasard un échantillon de la population. L’expression « Hasard » signifie qu’il n’y a aucune raison pour qu’un individu soit choisi de préférence à un autre c’est à dire que chaque individu de la population a la même probabilité d’être choisi. Cette méthode vise à réaliser un échantillon représentatif de la population : les informations obtenues à partir des observations faites sur l’échantillon doivent pouvoir être étendues, sans erreur grave, à l’ensemble de la population. En mathématiques, un caractère est une application définie sur l’ensemble de la population à valeurs dans un ensemble appelé ensemble des modalités du caractère. Un caractère peut donc présenter plusieurs modalités : Exemple Le caractère groupe sanguin a des modalités : A, B, AB et O. Le caractère sexe a deux modalités : masculin et féminin. Le caractère taille des personnes a plusieurs modalités : 165 cm, 157 cm, 173 cm etc. Parmi les caractères étudiés, on distingue : ♦ Caractère quantitatif : Un caractère est quantitatif si ses modalités sont mesurables. Exemple : Taille, Poids, Taux d’urée, Taux de cholestérol, Nombre d’enfants. Un caractère quantitatif peut être : Discret, si les mesures du caractère sont discrètes (c’est-à-dire que les mesures sont séparées les unes des autres). Exemple : Nombre d’enfants d’une famille. Continu, si les mesures du caractère peuvent prendre n’importe quelle valeur entre des limites données. Exemple : Taille, Poids, Taux de cholestérol, Taux de glucose. Page 1 ♦ Caractère qualitatif : Un caractère est qualitatif si ses modalités ne sont pas mesurables. Exemple : Groupe sanguin, Sexe. 2. La présentation des données Les données recueillies doivent être présentées sous forme de tableaux ou de graphiques et quelques fois cette présentation donne une idée suffisante de l’information contenue dans ces données. En outre, lorsque le caractère est quantitatif, on utilise les paramètres caractéristiques qui sont un ensemble de valeurs permettant de représenter au mieux la série statistique et d’en tirer des informations suffisantes. 3. L’analyse des données Cette étape fondamentale consiste à obtenir des informations concernant le caractère étudié dans la population à partir de celles obtenues sur l’échantillon en utilisant les méthodes du calcul de probabilités appelées méthodes statistiques. 4. La fiabilité des résultats Il s’agit de préciser le degré de confiance qu’il faut accorder aux résultats obtenus par l’analyse des données en fonction des données observées. II. PRESENTATION NUMERIQUE ET GRAPHIQUE Dans cette partie, nous allons apprendre comment on représente, pour chaque nature du caractère, numériquement et graphiquement une série statistique simple. 1. Caractère quantitatif discret Soit la série statistique  ,  ,…, où  est la valeur du caractère quantitatif discret présentée par l’individu  avec  1,2, … , . L’effectif total : c’est le nombre  de valeurs . L’étendue de la série : c’est la différence entre la valeur maximale et la valeur minimale.    Une série statistique sur un caractère quantitatif discret est très souvent représentée sous la forme d’un tableau : Valeur du caractère   …  TOTAL Effectif   …   Exemple : On fait une étude statistique portant sur le nombre d’enfants par famille dans un échantillon comportant 36 familles. La série statistique est : 5 1 2 1 2 7 0 6 6 3 3 1 0 2 0 0 4 4 5 4 0 2 0 5 6 4 1 1 0 0 0 2 3 4 1 1 Certaines valeurs se répètent un certain de nombre de fois. Il est donc recommandé de représenter cette série sous forme de tableau : Nombre d’enfants 0 1 2 3 4 5 6 7 TOTAL Effectif 9 7 5 3 5 3 3 1 36 L’effectif  de  : c’est le nombre d’individus présentant la valeur du caractère . L’effectif total  : c’est la somme des effectifs des classes.      La fréquence  de  : c’est le rapport de l’effectif de  à l’effectif total .    Exemple A Page 2 Dans une région donnée, on étudie le nombre d’enfants par famille. On choisit au hasard un échantillon de taille 100 et on fait les observations suivantes : Fréquence Nombre d’enfants Effectif         0 5 0,05 1 15 0,15 2 25 0,25 3 20 0,20 4 15 0,15 5 13 0,13 6 ou plus 7 0,07 TOTAL 100 1 Considérons la série statistique suivante : Valeur du caractère   …  Effectif   …  La représentation graphique de ce tableau peut être sous deux formes : Diagramme en bâtons des effectifs : c’est un ensemble de bâtons ayant pour abscisses les valeurs du caractère  et pour hauteurs les effectifs . Polygone des effectifs : c’est la ligne brisée joignant les extrémités des bâtons. Exemple : Représenter graphiquement la série statistique de l’exemple A. Diagramme en bâtons et polygone des effectifs Effectif 30 25 20 15 10 5 0 0 1 2 3 4 5 6 ou plus Nombre d'enfants Remarque On peut tracer le diagramme en bâtons et le polygone des fréquences en portant en ordonné les fréquences . Page 3 Effectif cumulé * jusqu'à la  valeur  : c’est la somme de l’effectif de  et de tous les ème effectifs des valeurs qui précèdent . *  + , + ⋯ +  Fréquence cumulée * jusqu'à la  valeur  : c’est la somme de la fréquence de  et de ème toutes les fréquences des valeurs qui précèdent . *  + , + ⋯ +  Exemple Nombre Fréquence Effectif Effectif cumulé Fréquence d’enfants cumulée   *      *  0 5 5 0,05 0,05 1 15 20 0,15 0,20 2 25 45 0,25 0,45 3 20 65 0,20 0,65 4 15 80 0,15 0,80 5 13 93 0,13 0,93 6 ou plus 7 100 0,07 1,00 De la même façon, on établit le diagramme en bâtons et le polygone des effectifs cumulés (ou des fréquences cumulées). Diagramme en bâtons et polygone des effectifs Effectif cumulés cumulé 100 80 60 40 20 0 0 1 2 3 4 5 6 ou Nombre d'enfants plus 2. Caractère quantitatif continu Lorsque l’étude statistique porte sur un caractère quantitatif continu la représentation précédente n’est plus possible parce que, entre deux valeurs du caractère, on trouve toujours une infinité de valeurs ; par conséquent, si l’échantillon est de taille assez élevée, plusieurs valeurs sont extrêmement Page 4 proches. La représentation précédente entraînerait alors une grande dispersion des effectifs et ne permettrait pas de suivre les variations du caractère dans l’échantillon. Pour cela, il est d’usage de répartir son étalement en différentes classes disjointes limitées chacune par une borne inférieure et une borne supérieure. La différence entre ces deux limites s’appelle amplitude de la classe, et dans la majorité des cas les amplitudes sont égales. On procède de la façon suivante à l’aide d’un exemple. Exemple : La pesée de 37 nouveau-nés a donné les résultats suivants (exprimés en Kg) : 2,00 2,05 2,07 2,11 … 4,93 4,94 4,94 4,95 4,95 On partage la série statistique en / classes de même amplitude 0 en procédant de la façon suivante : 1 234  2 4,95  2,00 2,95 1. On calcule l’étendue E : 2. On détermine l’amplitude des classes 0 sachant que : 1 /. 0 Le nombre de classes / est généralement pris égal à la valeur approchée de √ où  est la taille de l’échantillon (dans notre exemple  37). On prendra par exemple / 6. 1 2,95 D’où 0 0,49 9 0,50 / 6 effectifs  à chaque classe. 3. On partage la série statistique en 6 classes de même amplitude 0,50 ensuite on attribue les  Classe Effectif  [2,00 , 2,50[ : [2,50 , 3,00[ ; [3,00 , 3,50[ < [3,50 , 4,00[ = [4,00 , 4,50[  [4,50 , 5,00[ TOTAL D’une façon plus générale, on obtient la série statistique présentée sous la forme du tableau suivant : >?@ , ? >   Classe Centre de classe Effectif >? , ? >   >?A , ? >   … … … Total  ?A et ? sont les extrémités de la classe >?A , ? > (la valeur extrême droite ? n’appartient pas à la classe >?A , ? >).  est l’effectif de la classe >?A , ? >.  représente le centre de la classe >?A , ? >. ?A + ?  2  est l’effectif total. Page 5      La représentation graphique de ce tableau peut être sous deux formes : L’histogramme des effectifs (ou des fréquences) est l’ensemble des rectangles ayant pour largeur l’amplitude de la classe et pour hauteur l’effectif (ou la fréquence) de la classe. Le polygone des effectifs (ou des fréquences) est la ligne brisée joignant les milieux des bases supérieures des différents rectangles adjacents. Exemple B On effectue l’opération de pesage sur un échantillon de 100 nouveau-nés. Les valeurs des poids exprimées en Kg et réparties en 8 classes figurent dans le tableau suivant : Effectif Centre de classe Fréquence Classe des poids *      [2,20 , 2,50[ 3 2,35 0,03 [2,50 , 2,80[ 11 2,65 0,11 [2,80 , 3,10[ 13 2,95 0,13 [3,10 , 3,40[ 20 3,25 0,20 [3,40 , 3,70[ 24 3,55 0,24 [3,70 , 4,00[ 15 3,85 0,15 [4,00 , 4,30[ 8 4,15 0,08 [4,30 , 4,60[ 6 4,45 0,06 TOTAL 100 1 Histogramme et polygone des effectifs Effectif 30 25 20 15 10 5 0 2,20 2,50 2,80 3,10 3,40 3,70 4,00 4,30 4,60 Poids de nouveau-nés (Kg) La représentation graphique peut être aussi le polygone des effectifs cumulés : c’est la ligne brisée joignant les points ? , B  où ? est la valeur extrême droite de la classe >?A , ? > et B est l’effectif cumulé jusqu'à ?. Exemple : Tracer le polygone des effectifs cumulés de l’exemple B. Page 6 Effectif Centre de classe Effectif cumulé Classe des poids     *  [2,20 , 2,50[ 3 2,35 3 [2,50 , 2,80[ 11 2,65 14 [2,80 , 3,10[ 13 2,95 27 [3,10 , 3,40[ 20 3,25 47 [3,40 , 3,70[ 24 3,55 71 [3,70 , 4,00[ 15 3,85 86 [4,00 , 4,30[ 8 4,15 94 [4,30 , 4,60[ 6 4,45 100 Polygone des effectifs cumulés Effectif cumulé 100 80 60 40 20 0 2,20 2,50 2,80 3,10 3,40 3,70 4,00 4,30 4,60 Poids de nouveau-nés (Kg) Remarque : De la même façon, on peut tracer le polygone des fréquences cumulées en portant en ordonnée les fréquences cumulées. 3. Caractère qualitatif Il n’est plus alors possible d’utiliser un diagramme cartésien puisque les modalités ne sont pas mesurables. Diverses méthodes sont possibles ; nous indiquerons deux d’entre elles à partir de l’exemple suivant : Exemple C Pour étudier les réactions d’enfants à un vaccin, on considère un échantillon de 100 de ces enfants et, pour chacun d’eux, sa réaction au vaccin. On a le tableau suivant : Page 7 Effectif Fréquence Classe     Pas de réaction 25 0,25 Faible réaction 30 0,30 (rougeur par exemple) Réaction moyenne 30 0,30 (bouton par exemple) Forte réaction 15 0,15 (abcès par exemple) TOTAL 100 1 Diagramme à secteurs ou "camembert" 15% 25% Pas de réaction Faible réaction Réaction moyenne 30% Forte réaction 30% Diagramme à bandes Effectif 30 25 20 15 10 5 0 Pas de Faible réactionRéaction Forte réaction réaction moyenne Types de réactions Page 8 Exemple Dans une étude sur la localisation précise d’un cancer de l’estomac, on a réparti 298 sujets atteints, selon le sexe et la localisation du cancer, comme suit : Région du Corps de Région du TOTAUX pylore l’estomac cardia Hommes 53 (27,32%) 66 (34,02%) 75 (38,66%) 194 Femmes 48 (46,15%) 33 (31,73%) 23 (22,12%) 104 Diagramme à bandes Fréquence Hommes 50% Femmes 40% 30% 20% 10% 0% Région du pylore Corps de l'estomac Région du cardia Localisation précise d'un cancer On conclut graphiquement que le cancer localisé à la région du pylore est plus fréquent chez les malades femmes que chez les malades hommes contrairement à celui localisé à la région du cardia. En ce qui concerne le cancer localisé au corps de l’estomac, il y a presque autant de malades hommes que de malades femmes. Page 9

Use Quizgecko on...
Browser
Browser