Probabilités Statistiques - Echantillonnage PDF

PROBABILITES STATISTIQUES Echantillonnage CHAPITRE 3 : ECHANTILLONNAGE Thèmes :  Echantillonnage  Méthodes d’échantillonnage  Distribution d’échantillonnage 1- Echantillonnage Termes Définitions Cadre d’échantillonnage Une liste d’élément à partir desquels l’échantillon est sélectionné. Distribution Distribution de probabilité composée de toutes les valeurs possibles d’échantillonnage d’une statistique d’échantillon. Un sous ensemble de la population considérée, le nombre d'individus Échantillon dans l’échantillon est la taille de l'échantillon. La sélection d’une partie dans un tout (la sélection d’une partie dans la Échantillonnage population), l’échantillon sélectionné doit être représentatif de la population. Méthodes Ensemble des méthodes permettant de réaliser un sondage (de prélever d’échantillonnage un échantillon de données) au sein d’une population, de manière à reproduire un échantillon aussi représentatif que possible de cette population. Caractéristique numérique d’une population telle que la moyenne de la population “µ”, l’écart type de la population “σ” et la proportion de la Paramètre population "p". Ensemble que l'on observe et qui sera soumis à une analyse statistique, Population chaque élément de cet ensemble est un individu ou unité statistique. Population finie Une population qui consiste en un nombre fini d'éléments. Une population est infinie s’il n'y a pas de limite au nombre d'éléments Population infinie qu'il contient. Population homogène Une population avec des éléments qui possèdent les mêmes caractéristiques. Une population avec des éléments qui ne possèdent pas les mêmes Population non homogène caractéristiques. Tirage exhaustif Tirage sans remise. Tirage non exhaustif Tirage avec remise. Population échantillonnée La population à partir de laquelle l’échantillon est constitué. Étude des liaisons existantes entre une population et les échantillons de cette Théorie d’échantillonnage population. LOKOSSOU Amédé Sègon Durand 96 86 72 86 Ingénieur Statisticien Economiste 1 PROBABILITES STATISTIQUES Echantillonnage 2- Définitions Un échantillon de taille n est une liste de n individus (1, 2, …, n) extraits d’un ensemble appelé population mère. On appelle échantillonnage le prélèvement d’échantillons. Il s’agit du procédé utilisé pour choisir un échantillon, c’est-à-dire les individus/éléments que l’on souhaite étudier. Le rapport t de l’effectif n de l’échantillon à l’effectif de la N de la population, dans laquelle il est prélevé est 𝒏 appelé taux d’échantillonnage ou fraction de sondage : 𝒕 = 𝑵 On appelle base de sondage la liste exhaustive des individus de la population mère. Combien d’échantillons de n éléments peuvent être isolés d’une population de N éléments ? On distingue 2 cas de tirage :  Un échantillonnage exhaustif ou sans remise est un prélèvement de n individus en une seule fois, ou successivement sans remise, dans la population mère. Ce qui correspond à 𝑪𝒏𝑵 échantillons possibles.  Un échantillonnage non-exhaustif ou avec remise lorsque l’individu prélevé est remis dans la population mère avant le tirage du suivant. On a alors 𝑵𝒏 échantillons possibles. 3- Méthodes d’échantillonnage aléatoires/probabilistes L’échantillonnage probabiliste repose sur un choix d’unités dans la population fait au hasard, ce n’est pas l’enquêteur qui choisit les unités, c’est la méthode utilisée pour la sélection qui le fait. Une des caractéristiques de cette méthode est que chaque unité de la population a une probabilité mesurable d’être choisie. L’avantage de la méthode d’échantillonnage probabiliste est qu’elle permet de généraliser les résultats de l’échantillon à l’ensemble de la population en s’appuyant sur une théorie statistique reconnue. Son seul inconvénient est qu’il faut posséder une liste de toutes les unités formant la population avant de procéder à la sélection de l’échantillon. - Echantillonnage aléatoire simple Un échantillon aléatoire simple est un prélèvement de n individus dans une population mère de manière que tous les individus tirés aient la même probabilité d’être sélectionné indépendamment les uns des autres. - Echantillonnage aléatoire stratifié On divise la population mère en sous-population disjointes (strates) en se basant sur un critère. Dans chaque strate, on fait un échantillonnage aléatoire simple, de taille proportionnelle à la taille de strate dans la population (échantillon représentatif). Les individus de la population n’ont pas tous la même probabilité d’être tirés. LOKOSSOU Amédé Sègon Durand 96 86 72 86 Ingénieur Statisticien Economiste 2 PROBABILITES STATISTIQUES Echantillonnage L'échantillonnage stratifié a l'avantage d'assurer une bonne représentation des différentes strates de la population dans l’échantillon. Il permet aussi d’obtenir des estimations pour chacune des strates de la population. Toutefois, pour utiliser cette méthode il faut avoir des renseignements sur la répartition des strates dans la population. Exemple : Supposons que 60% des étudiants de l’école HECM sont des filles et 40% des garçons. Pour former un échantillon de 120 étudiants en respectant ces strates, on devrait choisir au hasard 60% x 120 = 72 filles et 40% x 120 = 48 garçons. - Echantillonnage aléatoire par grappe On tire au hasard des grappes ou familles d’individus, et on examine tous les individus de la grappe (ex: on tire des immeubles puis on interroge tous les habitants). La méthode est d’autant meilleure que les grappes se ressemblent et que les individus d’une même grappe sont différents, contrairement aux strates. L’on divise la population en sous-groupes appelés « grappes ». Les grappes ont le même profil, la variance d’une grappe à l’autre étant faible. Il sélectionne par la suite un échantillon aléatoire de grappes et non pas un échantillon aléatoire à l’intérieur de chaque grappe. L'avantage de cette méthode par rapport aux précédentes est qu'elle ne requiert pas au préalable la liste de la population, seule la liste des unités pour les grappes pigées est nécessaire. Un désavantage de ce type d'échantillonnage est qu'il produit des estimations habituellement moins précises que l’échantillonnage aléatoire simple parce que des unités appartenant à une même grappe ont tendance à présenter des caractéristiques semblables. Cette perte de précision peut être compensée par une augmentation de la taille de l’échantillon. Exemple : Les étudiants de 1ère année Master à HECM sont répartis en 11 filières, les filières sont numérotées de 1 à 11. Supposons que l’on obtienne les nombres 2, 5, 7 et 10 à l’issu de tirage aléatoire des filières ; tous les étudiants de ces 4 filières feront partie de l’échantillon. - Echantillonnage aléatoire systématique Dans certaines situations, spécialement lorsque les populations sont importantes, il est coûteux (en temps) de sélectionner un échantillon aléatoire simple en trouvant tout d’abord un nombre aléatoire et ensuite en cherchant dans la liste de la population l’élément correspondant. Une alternative de l’échantillonnage aléatoire simple est l’échantillonnage systématique. Par exemple, si l’on souhaite sélectionner un échantillon de taille 50 parmi une population contenant 5000 éléments, cela revient à sélectionner un élément tous les (5000/50) = 100 éléments de la population. Constituer un échantillon systématique dans ce cas consiste à sélectionner aléatoirement un élément parmi les 100 LOKOSSOU Amédé Sègon Durand 96 86 72 86 Ingénieur Statisticien Economiste 3 PROBABILITES STATISTIQUES Echantillonnage premiers de la liste de la population. Les autres éléments de l’échantillon sont identifiés de la façon suivante : le second élément sélectionné correspond au 100e élément qui suit le premier élément sélectionné dans la liste de la population, le troisième élément sélectionné correspond au 100e élément qui suit le deuxième élément sélectionné dans la liste de la population, et ainsi de suite. En fait, l’échantillon de taille 50 est identifié en se déplaçant systématiquement dans la population et en identifiant les 100e, 200e, 300e …etc. éléments qui suivent le premier élément choisi aléatoirement. L’échantillon de taille 50 est généralement plus facile à identifier de cette manière qu’en utilisant l’échantillonnage aléatoire simple. Puisque le premier élément sélectionné l’est aléatoirement, un échantillon systématique est généralement supposé avoir les propriétés d’un échantillon aléatoire simple, cette hypothèse est particulièrement appropriée lorsque la liste de la population est une énumération aléatoire des éléments de la population. 4- Méthodes non probabilistes (Raisonnées ou empirique) : L'échantillonnage non probabiliste repose sur un choix arbitraire des unités, c’est l’enquêteur qui choisit les unités et non le hasard. En ce sens, il serait donc aventureux de généraliser les résultats obtenus pour l’échantillon à toute la population. Malgré cela, ces méthodes sont souvent utilisées dans certaines disciplines. En voici quelques-unes : - Echantillonnage par quota Lorsque le chercheur veut reproduire les caractéristiques d’une population (ex. âge, sexe, revenus, etc.) dans son échantillon. - Echantillonnage de convenance (de commodité) Cas où les unités d’échantillonnage sont faciles à rejoindre, disponibles et généralement facile à convaincre. - Echantillonnage selon le jugement Le chercheur juge que l’échantillon va lui permettre d’atteindre les objectifs de la recherche. - Echantillonnage boule de neige Utile dans le cas de la rareté des unités d’échantillonnage ou de l’absence d’un cadre d’échantillonnage valide. On demande à un répondant de nous référer à un autre qui présente les mêmes caractéristiques que les siennes, et ainsi de suite… 5- Distribution d’échantillonnage Prenons tous les échantillons possibles de taille n tirés d’une population donnée. Pour chaque échantillon, on peut calculer une statistique (moyenne, écart-type, variance, etc...) qui variera avec l’échantillon. Pour tous les échantillons, on obtient alors une distribution de la statistique que l’on nomme la distribution d’échantillonnage. Pour la validité des résultats, il est important que les échantillons soient représentatifs de la population concernée. LOKOSSOU Amédé Sègon Durand 96 86 72 86 Ingénieur Statisticien Economiste 4 PROBABILITES STATISTIQUES Echantillonnage La distribution d’échantillonnage est l’étude de la de probabilité de l’échantillon en fonction de la distribution de la variable parente lorsque la taille de l’échantillon augmente. Considérons tous les échantillons possibles de taille n extraits d’une population de taille N, de moyenne µ, de variance 𝜎 2 , …etc. Pour chaque échantillon, il est possible de calculer les paramètres statistiques 𝑥̅ , 𝑠, 𝑠 2 … etc qui varient d’un échantillon à l’autre. Chaque paramètre possédera ainsi une distribution d’échantillonnage au même titre que la variable aléatoire X. On utilise souvent : Distribution Distribution d’échantillonnage des d’échantillonnage Population Échantillon moyennes des variances Taille N n / / Moyenne  𝑥̅ 𝜇𝑋̅ 𝜇𝑠2 𝑥̅ Ecart-type  s 𝑋̅ 𝑠 2 𝑥̅ Variance 𝜎2 𝑠2 𝜎 2𝑋̅ 𝜎 2 𝑠2 Proportion 𝜋2 p / / 2 Echantillonnage aléatoire simple Avec remise (non Sans remise (exhaustif) exhaustif) Nombre d’échantillons 𝐶𝑁𝑛 𝑁𝑛 Distribution d’échantillonnage de la moyenne 𝜇𝑋̅ = 𝜇 𝜇𝑋̅ = 𝜇 𝜎 𝜎 𝑁−𝑛 𝜎𝑋̅ = 𝜎𝑋̅ = √ √𝑛 √𝑛 𝑁−1 Distribution d’échantillonnage 𝑛−1 2 𝜎 𝑛 de la variance 𝜎2 Distribution d’échantillonnage de l’écart-type  𝑛−1 √ 𝜎 𝑛 LOKOSSOU Amédé Sègon Durand 96 86 72 86 Ingénieur Statisticien Economiste 5 PROBABILITES STATISTIQUES Echantillonnage Distribution d’échantillonnage 𝐸(𝑓𝑛 ) = 𝑝 𝐸(𝑓𝑛 ) = 𝑝 de la fréquence 𝑝(1 − 𝑝) 𝑝(1 − 𝑝) 𝑉(𝑓𝑛 ) = 𝑉(𝑓𝑛 ) = 𝑛 𝑛 Exemple : Pour mettre en place une nouvelle politique de bourse, les autorités ont chargé la Faculté des Sciences Economiques et de Gestion (FASEG) d’identifier le profil des 21.500 étudiants que compte l’Université. Les caractéristiques pertinentes comprennent le revenu moyen annuel et la proportion des étudiants ayant déjà bénéficié de la bourse du gouvernement. En considérant les 21 500 étudiants comme population de cette étude, on peut déterminer le revenu annuel moyen de chaque individu, et savoir s’il a déjà bénéficié d’une bourse du gouvernement. En utilisant l’ensemble des données de l’université, nous pouvons calculer la moyenne et l’écart-type du revenu annuel moyen pour la population :  Moyenne de la population : 𝑚 = 51800 𝐹𝐶𝐹𝐴  Ecart-type de la population : 𝜎 = 4000 𝐹𝐶𝐹𝐴 Les données concernant le programme de bourse montrent que 13000 des 21500 étudiants ont une fois bénéficié d’une bourse du gouvernement. Soit p la proportion des étudiants ayant bénéficié d’une bourse du gouvernement. Nous avons donc 𝑝 = 13000/ 21500 = 0,60. Le revenu annuel moyen (𝑚 = 51800 𝐹𝐶𝐹𝐴), l’écart-type du revenu annuel moyen de la population (𝜎 = 4000 𝐹𝐶𝐹𝐴) et la proportion des étudiants ayant bénéficié d’une bourse du gouvernement. (𝑝 = 0.60) sont les paramètres de la population des étudiants de l’université de Bangui. Remarques : En comparant les distributions d’échantillonnage de la variance dans les cas de remise et sans remise ; il 𝑁−𝑛 apparait que le facteur √ 𝑁−1 est nécessaire lorsque la population est finie, mais pas lorsqu’elle est infinie. Ce facteur est généralement appelé facteur de correction pour une population finie. Dans de nombreux échantillonnage la population bien que finie ; est « grande », alors que la taille de l’échantillon est relativement 𝑁−𝑛 « petite » dans de tel cas le facteur de correction est petit. Quand N→+∞, √ 𝑁−1 = 1. 𝜎 Par conséquent devient une bonne approximation de l’écart-type 𝜎𝑋̅ même si la population est finie. Du √𝑛 𝑛 point de vue empirique, il suffit que ≥ 0,05. C’est à dire que l’échantillon soit inférieur ou égal à 5% de la 𝑁 taille de la population finie. Le calcul de l’écart-type d’un échantillon 𝜎𝑋̅ nécessite la connaissance de l’écart-type de la population . C’est pourquoi l’écart-type d’un échantillon 𝜎𝑋̅ est souvent appelé erreur type de la moyenne. Dans l’exemple précédent l’écart-type du revenu annuel moyen de la population est égal à 4000 FCFA. La population est finie 𝑁 = 21500. Pour un échantillon de tailllon 𝑛 = 30, nous avons donc 𝑛/𝑁 = 30/21500 𝜎 = 0.001 donc inférieur à 5%. Ce qui nous permet d’écrire : 𝜎𝑋̅ = 𝑛= 4000/30 = 730,3 √ LOKOSSOU Amédé Sègon Durand 96 86 72 86 Ingénieur Statisticien Economiste 6

Probabilités Statistiques - Echantillonnage PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue