Biostatistiques & Epidémiologie & Démographie - 2023-2024 PDF
Document Details
Uploaded by ConfidentShofar
Université Privée de Fès
2024
ZINE EL ABIDINE MIRYEM
Tags
Summary
This document is a university course on biostatistics and epidemiology, covering topics like definitions of statistics, summarizing data, using graphs and exploring characteristics of data dispersion.
Full Transcript
Biostatistiques & Epidémiologie & Démographie Filières TECHNICIEN DE LABORATOIRE Année universitaire 2023-2024 Assuré par prof : ZINE EL ABIDINE MIRYEM Sommaire INTRODUCTION.....
Biostatistiques & Epidémiologie & Démographie Filières TECHNICIEN DE LABORATOIRE Année universitaire 2023-2024 Assuré par prof : ZINE EL ABIDINE MIRYEM Sommaire INTRODUCTION............................................................................................................. 2 CHAPITRE 1 Définitions et terminologie de la statistique............................................. 2 I-1- La statistique………………………………………………………………3 I-2. LA POPULATION........................................................................................................... 3 I-3. L’UNITÉ STATTISTIQUE OU L’INDIVIDU................................................................ 3 I-4. L’ÉCHANTILLON........................................................................................................... 3 I-5. LE CARACTÈRE OU LA VARIABLE.......................................................................... 4 I-6. LA MODALITÉ.............................................................................................................. 4 I-7. LA DISCRÉTISATION................................................................................................... 4 I-8-LES PHASES DE LA DEMARCHE STATISTIQUE …………………………………..5 CHAPITRE ; Analyse Des Données Exploratoires.......................................................... 6 II-1. LES FREQUENCES ABSOLUE, RELATIVE ET CUMULEE................................... 6 A-LES PARAMETRES DE POSITION II-2. LA MOYENNE.............................................................................................................. 7 II-3. LE MODE...................................................................................................................... 7 II-4. LA MEDIANE................................................................................................................ 8 II-5. LES FRACTILES..........................................................................................................9 B-LES PARAMETRES DE DISPERSION 1-L’ETENDUE…………………………………………………………………………….10 2-LA VARIANCE………………………………………………………………………..11 3-L’ECART TYPE………………………………………………………………………..12 CHAPITRE III : Estimations et tailles d’échantillons……………………….….13 1- LES TYPES D'ÉCHANTILLONNAGE……………………………………………14 2- ESTIMATION DE LA PROPORTION, LA MOYENNE ET LA VARIANCE D’UN E POPULATION………………………………………………..14 3- LES CRITÈRES D'ÉCHANTILLONNAGE……………………….14 1 INTRODUCTION En présence d’un ensemble de données chiffrées l’esprit a un besoin spontané de simplification. Selon les critères qui lui sont propre, il cherche d’une part à représenter et à classer ces données ; D’autre part, il souhaite résumer la multiplicité et la complexité des notations par des caractéristiques synthétiques. De ce fait, l’homme est conduit - à déterminer les caractéristiques centrales (moyenne, médiane, etc.), à construire des graphiques (histogramme, camembert, etc.), -à calculer des caractéristiques de dispersion (écart-type, rapport de variation, intervalle interquartile, etc.) -à comparer des « séries statistiques ». Il faut également savoir se servir des statistiques et interpréter correctement les résultats. C’est vers l’acquisition de ces compétences que ce cours est orienté. La Bio Statistique n’est pas le simple dénombrement (ex: le nombre exact des veuves qui ont passé sur le Pont Neuf, au cours de l’année 1860, selon Eugène Labiche). Elle est appliquée à des données biologiques et médicales. c’est une discipline scientifique qui permet de résumer les données (Statistique descriptive): et d’inférer (déduire, conclure, résumer) d’un échantillon à une population (Statistique inférentielle), via l’intervalle de confiance ou les tests d’hypothèse. En effet, Il existe deux types de statistique : La statistique descriptive est donc de décrire des données en mettant de l'ordre et une certain régularité; c'est comme si l'on faisait le résumé du livre : le résumé à l'avantage d'être plus court, plus facile à lire et comporte les éléments essentiels, mais le résumé néglige certains aspects pour faciliter la lecture. La statistique inférentielle permet de savoir à quel point l'on peut résumer sans perdre des informations essentielles et quel est le meilleur résumé avec le moins d'erreur. Cette branche des statistiques s’intéresse davantage à extrapoler des résultats issus d’échantillons en vue de caractériser une population mère inconnue, de faire des prévisions de comportements basées sur le calcul de probabilités. Volonté, curiosité et ténacité permettront de maîtriser sans encombre les notions abordées qui, malgré leur complexité apparente, demeurent relativement simples. Cette formation se présente davantage comme une initiation à la rigueur que nécessite la manipulation d’ensembles de données afin d’utiliser à bon escient les méthodes appropriées pour éviter de faire parler faussement les chiffres. Les concepts et méthodes statistiques seront abordés au travers de nombreux exemples. CHAPITRE 1 Définitions et terminologie de la statistique 1-La statistique est une méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. La biostatistique est une branche de la statistique appliquée à la biologie et à la médecine. Elle utilise des méthodes statistiques pour analyser des données biologiques, médicales et de santé afin de tirer des conclusions, de prendre des décisions et de faire des prédictions. Elle couvre un large éventail de sujets, tels la génétique statistique, la conception et l’analyse d’essais cliniques randomisés contrôlés, ainsi que la modélisation de durées de vie. Voici quelques concepts clés liés à la biostatistique : 2 1. Collecte de données : La première étape consiste à recueillir des données pertinentes. Cela peut inclure des observations, des mesures ou des expérimentations sur des sujets tels que des patients, des échantillons biologiques ou des populations. 2. Descriptives statistiques : Ces méthodes sont utilisées pour résumer et décrire les caractéristiques essentielles des données, telles que la moyenne, la médiane, l'écart-type, etc. Cela aide à avoir une vue d'ensemble des données avant de procéder à des analyses plus avancées. 3. Inférence statistique : La biostatistique permet de tirer des conclusions générales à partir d'un échantillon de données, en utilisant des techniques d'inférence statistique telles que les intervalles de confiance et les tests d'hypothèses. Il ne faut pas confondre la statistique qui est la science qui vient d’être définie et une statistique qui est un ensemble de données chiffrées sur un sujet précis. Les premières statistiques correctement élaborées ont été celles des recensements démographiques. Ainsi le vocabulaire statistique est essentiellement celui de la démographie. Les ensembles étudiés sont appelés population. Les éléments de la population sont appelés individus ou unités statistiques. La population est étudiée selon un ou plusieurs caractères. 2-La Population - La population correspond à l'ensemble des individus sur lequel porte l'étude ou la prévision, (il est généralement difficile de l'étudier dans sa totalité), et l'échantillon représente la fraction de cette population qui est réellement observée où étudiée. 3- La notion d'individu est très large : les éléments d'un échantillon ou d'une population sont appelés généralement des individus, cependant cette notion peut être remplacé par plusieurs dénominations: unité statistique, sujet, objet, élément, observation, mesure, doses,…toutefois, dès que la dénomination est choisie aucune ambiguïté ne doit persister La biostatistique a pour objet la collecte, la caractérisation, l'analyse et l'interprétation d'observations relatives à des phénomènes concernant des ensembles plus ou moins importants d'objets, d'événements ou d'individus. L’objectif est de faire « parler » les chiffres afin de prendre une décision. Pouvoir préciser, pour un problème défini, le type de données recueillies et le nombre d'échantillons. Reconnaître, pour un problème donné, le type de méthode statistique à utiliser. Adopter une démarche systématique pour résoudre un problème donné depuis le choix de la méthode (statistique de test appropriée aux échantillons) jusqu'à son application,. sa validation et l'interprétation des résultats obtenus. Comprendre et savoir expliquer les concepts et hypothèses sous-jacentes aux méthodes utilisées. Pouvoir préciser l'indépendance ou non des échantillons. Avoir une bonne vision des domaines d'application de la statistique en santé publique face à des situations auxquelles l'étudiant pourrait être confronté. Elle constitue également un outil de prévision : elle permet aux gestionnaires de faire des prévisions dans le futur (prévision des maladies par exemple). La planification; la collecte, la codification, la saisie, le traitement et l’analyse des données ; la publication des résultats. C’est pour pouvoir justifier ses choix au moment de la présentation de résultats. Les statistiques permettent de répondre à ce genre de questions : ▪ Quel est la valeur normale du taux de glycémie ? ▪ Quelle est l'efficacité thérapeutique d'un médicament par rapport à un autre ? 3 (donc comparer les résultats d'essais thérapeutiques) ▪ Y a-t-il un lien entre le poids et le cholestérol sanguin ?. I-4. L’ÉCHANTILLON Il est souvent impossible, pour des raisons pratiques ou pour des raisons de coût, d'observer la population de façon exhaustive et l'étude est alors faite sur un échantillon prélevé d’une population C’est un sous-ensemble (une partie) prélevé d’une population. les résultats obtenus sont extrapolés à la population mère. C’est un sous-ensemble construit et représentatif d'une population donnée.. 1-5Le caractère Les éléments d'un ensemble sont décrits par un caractère. Cela revient à établir une correspondance entre chaque élément i de l'ensemble E et l'ensemble X des modalités ou des valeurs du caractère : chaque élément de E a une modalité (caractère qualitatif) ou une valeur (caractère quantitatif) et une seule dans X. Ainsi le caractère peut être défini comme une des caractéristiques ou des attributs d'un individu, 1-6Modalité La modalité (respectivement la mesure) est l'une des formes particulière d'un caractère. Les différentes situations où les éléments de E peuvent se trouver à l'égard d'un caractère qualitatif considéré, sont les différentes modalités du caractère qualitatif X. Dans le cas ou le caractère X est quantitatif, les différentes situations où les éléments de E peuvent se trouver sont des mesures. Ces modalités ou ces mesures doivent être à la fois incompatibles (un élément de E ne peut prendre qu'une seule modalité) et exhaustive (à chaque élément de E doit pouvoir correspondre une modalité de X) de sorte que chaque élément de E ait une modalité et une seule dans X. 1-7 Variable Dans chaque étude statistique il est très important de considérer la nature des données (observations, caractères, attributs) que l'on va tester. D'elle dépend la nature des opérations possibles et donc des statistiques utilisables dans chaque situation. Il est donc primordial de préciser la nature de chaque variable, ou caractère. Il existe deux types de variables (ou observations), celles-ci peuvent être soit quantitatives soit qualitatives. Ces variables peuvent être mesurées d'où l'importance du choix des échelles de mesures, c'est-à-dire, des règles permettant d'affecter une valeur à chaque individu de la population ou de l'échantillon. I-7.1 Variable qualitative Une variable statistique est dite de nature qualitative si ses modalités ne sont pas mesurables. Les modalités d’une variable qualitative sont les différentes catégories d’une nomenclature. Ces catégories doivent être exhaustives (chaque individu est affecté à une modalité) et incompatibles (un individu ne peut être affecté à plusieurs modalités) de façon à créer une partition. Le sexe, la profession, l’état matrimonial sont quelques exemples de variables qualitatives. Pour ses enquêtes auprès des ménages, l’Insee utilise la nomenclature des Professions et catégories socioprofessionnelles (PCS-2003). Les modalités d’une variable qualitative peuvent être classées sur deux types d’échelle : nominale ou ordinale. À ces deux types d’échelle correspondent deux types de variables qualitatives. Variable qualitative nominale 4 Une variable statistique qualitative est dite définie sur une échelle nominale si ses modalités ne sont pas naturellement ordonnées. Exemples : Situation d’activité, statut matrimonial. Variable qualitative ordinale Une variable statistique qualitative est dite ordinale si l’ensemble de ses modalités peut être doté d’une relation d’ordre. Exemple : Niveau d’instruction. I-7.2 Variable quantitative Toute variable qui n’est pas qualitative ne peut être que quantitative. Les différentes modalités d’une variable quantitative constituent l’ensemble des valeurs numériques que peut prendre la variable. Une variable statistique est dite de nature quantitative si ses modalités sont mesurables. Les modalités d’une variable quantitative sont des nombres liés à l’unité choisie, qui doit toujours être précisée. Il existe deux types de variables quantitatives : les variables discrètes et les variables continues. Ces variables ont en commun des modalités clairement ordonnées, pour lesquelles l’écart entre les valeurs possède une signification, et sur lesquelles il est possible de réaliser des opérations mathématiques telles que des calculs de moyennes, etc. Néanmoins, elles ont des propriétés et des traitements spécifiques qui nécessitent une étude séparée. Variable quantitative discrète Lorsque les modalités sont des valeurs numériques isolées, comme le nombre d’enfants par ménage, on parle de variable discrète. Exemples : Âge, salaire, nombre de lit dans un hôpital. Variable quantitative continue Lorsque la variable, par exemple la taille d’un individu, peut prendre toutes les valeurs d’un intervalle, ces valeurs peuvent alors être regroupées en classes, et on parle dans ce cas de variable continue. Exemples : Poids, taux du sucre, taille, taux du sel. Pour représenter les données, les graphiques sont les outils visuels puissants les plus utilisés pour représenter des données de manière concise et significative et analyser et communiquer des données de manière efficace. Ils sont largement utilisés dans de nombreux domaines, y 5 compris la santé Voici quelques-unes des principales utilisations des graphiques : Visualisation des données, identification des tendances et des motifs, Comparaison des données, Prise de décision I-8 la démarche statistique 1: Phase de la Collecte des données Avant de commencer à étudier les données numériques concernant certains phénomènes ou sujets ou objets, il faut d’abord aller chercher ces données qui constituent la matière première de la statistique. Ainsi: ✓ Il faut déterminer de quel type d’information ou de données on a besoin; ✓ Préciser de quelle façon ces données seront recueillies: ✓ Sur quoi portent-elles ? population ou échantillon; ✓ Comment peut-on les obtenir ? collecte de données originales ou recueille des données qui sont déjà disponibles. Phase 2: Analyse statistique Dans cette étape intervient la Statistique descriptive, objet de ce module, et l’inférence Statistique. Quand les données sont exhaustives c'est-à-dire concernent toute la population, comme dans le cas du recensement, on fait recours à la statistique descriptive (Statistique déductive). Or, lorsque les données concernent un échantillon de la population, on fait recours à la statistique inférentielle (Statistique inductive). La statistique descriptive, première étape de l’analyse consiste en un traitement des données qui a pour but de décrire un ensemble de données numériques : c'est-à-dire de les organiser et les présenter sous forme de tableaux, de les visualiser dans des graphiques et de les résumer en quelques valeurs numériques appelées caractéristiques ou paramètres statistiques. Phase 3: Décision statistique Cette phase regroupe un ensemble de méthodes et de modèles quantitatifs (modèle linéaire ou non linéaire) qui permettent d’aider à la prise de décision dans un contexte d’incertitude. CHAPITRE II : ANALYSE DES DONNÉES EXPLORATOIRES 1- CARACTÉRISTIQUES DE TENDANCE CENTRALE DES DONNÉES Les paramètres de tendance centrale ou « mesures de tendance centrale » sont des grandeurs susceptibles de représenter au mieux un ensemble de données. L'appellation «tendance centrale » vient du fait que ces paramètres donnent une idée de ce qui se passe au centre d'une distribution, d'un ensemble de données. Les paramètres 6 De position De dispersion Le mode L’étendue La moyenne La variance La médiane L’écart type Quartilles Centilles décilles On distingue trois mesures de tendance centrale : La moyenne ; Le mode ; La médiane, les quartilles Tous trois ne décrivent par la même chose et sont, de ce fait, complémentaires dans la description et l'analyse d'une distribution. Ces statistiques ne se calculent que dans le cas où nous avons à faire à des variables quantitatives. Dans le cas où nous avons des variables qualitatives, on procède aux fréquences. Avant d’analyser ces trois indicateurs de position, nous allons d’abord aborder la notion de la fréquence. II-1. LES FREQUENCES ABSOLUE, RELATIVE ET CUMULEE A chaque modalité de variable X, peut correspondre un ou plusieurs individus dans l'échantillon de taille n. On appelle effectif de la modalité 𝐱𝐢, le nombre 𝐧𝐢. Il est aussi appelé fréquence absolue. La fréquence relative est le nombre fi tel que 𝑓𝑖=𝑛𝑖𝑛 La fréquence cumulée croissante est cependant le nombre 𝑭𝒊 tel que 𝐹𝑖=Σ𝑓𝑝𝑖𝑝=1 Exemple : Représentons la fréquence relative et la fréquence cumulée du tableau ci-dessous Fréquences absolues, relatives et cumulées Désignée par « n », « f » ou « F » la notion de fréquence peut être exprimée de plusieurs manières : * Fréquence absolue (effectif) * Fréquence relative (ou fréquence) * Fréquences cumulées Fréquences absolues = Effectifs Le terme de fréquence absolue désigne les effectifs : a chaque modalité xi du caractère X, peut correspondre un ou plusieurs individus dans l'échantillon de taille N. On appelle effectif (ou fréquence absolue) de la modalité xi, le nombre ni où ni est le nombre d'individus de chacune des modalités Fréquences relatives = Fréquences On appelle fréquence de la modalité xi, le nombre fi tel que : fi = ni /N. 7 II-1. LA MOYENNE La moyenne constitue l’un des paramètres fondamentaux de tendance centrale mais non suffisant pour caractériser une distribution. Complémentaire du mode et surtout de la médiane, la moyenne constitue à n'en point douter, la mesure la plus calculée et la plus utilisée lors de la description de séries statistiques. Il existe plusieurs types de moyennes, chacun adapté à des situations précises : C'est la plus simple et la communément utilisée et ce, pas toujours à bon escient. Elle se note la plupart du temps par 𝑿. Elle peut être simple ou pondérée. I-2. LE MODE Le mode, 𝑴𝒐 d’une série statistique est la valeur du caractère la plus fréquente ou dominante dans l'échantillon. Lorsque la distribution a plus d’un mode, on parle d’une distribution « multimodale » (bimodale, trimodale , etc). Par contre, si l'on est en présence de données groupées en classes, le mode se rapportera à la classe comportant le plus grand nombre d'individus : on parlera alors de classe modale. Cependant, il peut y arriver que l’on s’intéresse à avoir la valeur approchée ou exacte de ce mode. Par conséquent, il est recommandé d’appliquer la démarche suivante : - Pour avoir une valeur approximative du mode, on calcule la moyenne de la classe qui a la fréquence la plus élevée ; 1-3. La médiane Médiane : La médiane est la valeur centrale d'un ensemble de données triées par ordre croissant ou décroissant. Si le nombre de données est impair, la médiane est la valeur au milieu. Si le nombre de données est pair, la médiane est la moyenne des deux valeurs centrales 1-les 5 observations suivantes observés : 26,31,49,53,55 méd c’est 49 2-les 6 observations suivantes observés : 26,31,49,53,55,60 méd c’est 49+53 =51 2 1-4-les quartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de même probabilité. Les trois valeurs intermédiaires définissent ainsi, respectivement 8 les fractiles de 1⁄4=0,25, 1⁄2=0,5 et 3⁄4=0,75, ou encore en termes de fractions, les quantiles d'un quart, un demi et trois quarts (les deux limites extrêmes, l'inférieure correspondant au quantile de 0 et la supérieure pour le quantile de 1, sont les bornes du domaine de définition de la variable aléatoire. Le premier groupe contient un quart des effectifs (25 %) Le deuxième groupe contient trois quarts des effectifs (75 %) Le troisième quartile d’une série statistique ordonnée est la valeur qui sépare cette série en deux groupes LES PARAMETRES DE DISPERSION En statistique, on manipule parfois de très grandes quantités d’informations. Pour en simplifier l’analyse et en donner une répartition assez fidèle, on effectuera quelques calculs : étendue, médiane et quartiles. 1-L’étendue Comment calculer l’étendue, la médiane et les quartiles d’une série statistique ? L’étendue d’une série statistique est la différence entre la valeur la plus grande et la valeur la plus petite de cette série. Exemple : Dans une classe de 25 élèves, on a répertorié le nombre de frères et sœurs de chaque élève dans un tableau : Nombre de frères et sœurs 01234 Effectifs28951 Etendue = 4 – 0 = 4. L’étendue de cette série statistique est donc de 4. Remarque : L’étendue est un indicateur de la dispersion des valeurs de cette série statistique. 2- La variance En statistique, la variance est une mesure de dispersion qui indique la variabilité d’une variable aléatoire. La variance est égale à la somme des carrés des résidus divisée par le nombre total d’observations. Gardez à l’esprit que le résidu s’entend comme la différence entre la valeur d’une donnée statistique et la moyenne de l’ensemble de données. En théorie des probabilités, le symbole de la variance est la lettre grecque sigma au carré (σ 2 ). Bien qu’il soit également généralement représenté par Var(X) , X étant la variable aléatoire à partir de laquelle la variance est calculée. 9 3-L'écart type L'écart type est une mesure statistique qui s'applique dans de nombreux domaines. Cette formule mathématique définit l'écart entre un ensemble de données et une moyenne pour synthétiser les résultats numériques d'une expérience répétée. Le monde de la santé s'est approprié cet outil d'aide à la décision pour évaluer la bonne santé d'une organisation (un hopital) et le taux de rendement annuel d'investissement. Comment se calcule l'écart type ? Bien que l'écart type soit une statistique facilement applicable, son calcul peut s'avérer complexe. Pour déterminer l'écart type d'un échantillon ou d'un actif, plusieurs étapes sont à suivre. Il s'agit de calculer : la moyenne de l'échantillon donné ; la variance de l'échantillon ; la racine carrée de la variance de l'échantillon. La variance et l’écart type (ou écart type) sont deux mesures de dispersion et indiquent donc toutes deux le degré de dispersion de l’ensemble de données. Cependant, la différence entre la variance et l’écart type est qu’en général la variance a des valeurs plus grandes, puisqu’il s’agit du carré de l’écart type. CHAPITRE III : Estimations et tailles d’échantillons Étant donné que l’accès à tous les individus de la population est matériellement impossible (complexité, population indéfinie, le but de l’inférence statistique est de généraliser les résultats obtenus auprès d’un échantillon représentatif pour décrire la population globale. Un bon échantillon (de qualité) doit constituer une image réduite de l’ensemble de la population (représentatif) dont on va étudier un caractère bien défini. Dans le cas contraire on dit que l’échantillon est biaisé. L'échantillonnage permet aux statisticiens de tirer des conclusions au sujet d'un tout en y examinant une partie. Il nous permet d'estimer des caractéristiques d'une population en observant directement une partie de l'ensemble de la population. 10 Les chercheurs ne s'intéressent pas à l'échantillon lui-même, mais à ce qu'il est possible d'apprendre à partir de l'enquête et à la façon dont on peut appliquer cette information à l'ensemble de la population. Plus l'échantillon est important, plus l'estimation est précise. Inversement, plus l'échantillon est petit, plus la moyenne de l'échantillon risque de présenter des incertitudes en raison des valeurs marginales extrêmes. En outre, il faut également vérifier l’homogénéité des variations des populations dont proviennent les groupes. Enfin, le nombre de sujets, qu’on appelle n en statistique, devra être supérieur à 30 par groupe. Cela permet de valider l’hypothèse selon laquelle les groupes sont équitables. Si ces exigences ne sont pas respectées, nous aurons alors recours à des tests non paramétriques. En revanche, si elles sont satisfaites, on peut alors utiliser les tests paramétriques. Il s’agit du test t (pour un échantillon ou pour deux échantillons liés ou indépendants) et du test ANOVA (pour plus de deux échantillons indépendants) des données appariées. 1. Estimations : Les estimations font référence aux valeurs que nous obtenons à partir de nos données d'échantillon et que nous utilisons pour tirer des conclusions sur la population plus large à partir de laquelle l'échantillon a été tiré. Par exemple, si nous avons un échantillon de patients atteints d'une certaine maladie, nous pouvons utiliser les données de cet échantillon pour estimer la prévalence de la maladie dans la population générale. 2. Tailles d'échantillons : La taille de l'échantillon fait référence au nombre d'individus inclus dans l'échantillon. Une taille d'échantillon adéquate est essentielle pour obtenir des estimations précises et des conclusions valides. Une taille d'échantillon trop petite peut entraîner une variabilité excessive dans les estimations, tandis qu'une taille d'échantillon trop grande peut entraîner un gaspillage de ressource III- Estimations et tailles d’échantillons La problématique de l’inférence statistique consiste, à partir d’un échantillon de données (technique d’échantillonnage,) provenant d’une population de loi de probabilité inconnue, à déduire des propriétés sur cette population : quelle est sa loi (problème d’estimation,), Comment choisir un échantillon pour qu’il soit représentatif ? (Techniques d’échantillonnage) Comment les paramètres de la population peuvent- ils être estimés à partir de l’échantillon? (estimation). Le mathématicien d'origine russe Jerzy Neyman (1894 ; 1981), ci-contre, pose les fondements d'une approche nouvelle des statistiques. Avec l'anglais Egon Pearson, il 11 développe la théorie de l'estimation et de la prise de décision sur un échantillon. Ses travaux trouveront rapidement des applications dans de nombreux domaines concrets, tels la médecine, l'astronomie ou la météorologie. Méthodes de prélèvement d’un échantillon : Méthode des quotas; Échantillonnage aléatoire; Échantillonnage au hasard simple; Échantillonnage stratifié; Échantillonnage par grappe;… Il y a aussi l’échantillonnage probabiliste ou aléatoire: sélection d’un échantillon dans laquelle la randomisation est utilisée par choix. L’échantillonnage non probabiliste : choix délibéré des individus pour constituer l’échantillon en fonction de leurs objectifs, caractéristiques et connaissances Pour chacun de ces deux types, il existe plusieurs méthodes d’échantillonnage. Nous détaillons ici chaque méthode afin de vous permettre de choisir la meilleure solution pour votre enquête. Échantillon de boule de neige Définition : Les chercheurs recrutent des sujets initiaux pour participer à une étude, puis demandent à ces sujets initiaux de recruter des sujets supplémentaires pour participer à l’étude. En utilisant cette approche, la taille de l’échantillon « fait boule de neige » de plus en plus grande à mesure que chaque sujet supplémentaire recrute plus de sujets. Exemple : Des chercheurs mènent une étude sur des personnes atteintes de maladies rares, mais il est difficile de trouver des personnes réellement atteintes de la maladie. Cependant, s’ils parviennent à trouver seulement quelques personnes initiales pour participer à l’étude, ils peuvent alors leur demander de recruter d’autres personnes qu’ils pourraient connaître par le biais d’un groupe de soutien privé ou par d’autres moyens. Échantillon délibéré Définition : Les chercheurs recrutent des individus en fonction de ceux qui, selon eux, seront les plus utiles en fonction de l’objectif de leur étude. Exemple : les chercheurs souhaitent connaître les opinions des habitants d’une ville sur l’installation potentielle d’une nouvelle salle d’escalade sur la place de la ville. Ils recherchent donc délibérément des personnes qui fréquentent d’autres salles d’escalade de la ville. Inconvénient : il est peu probable que les individus de l’échantillon soient représentatifs de la population globale. Ainsi, les résultats de l’échantillon ne peuvent pas être extrapolés à la population. Échantillon aléatoire Les échantillons aléatoires sont représentatifs de la population et donnent des résultats non biaisés des caractéristiques de la population. Lorsque les échantillons ne sont pas 12 constitués de manière aléatoire, les résultats obtenus sur l'échantillon ne peuvent alors être extrapolés à la population sans risque. 2-Estimation de la proportion, la moyenne et la variance d’une population L'estimateur sans biais de la proportion du caractère étudié d'une population est la fréquence observée de ce caractère sur l'échantillon. Par exemple, supposons que l'on ait un sachet de bonbons dont 50% sont orange. On effectue plusieurs échantillons aléatoires simples et on note f la fréquence de bonbons orange observée sur chaque échantillon. Sur certains échantillons, cette fréquence sera supérieure à 50% , sur d'autres, elle sera inférieure. Cependant, la moyenne des fréquences d’observation sur l’ensemble de tous les échantillons est égale à la proportion p de la population de 50%. En d'autres termes, l’espérance de la fréquence d'échantillon est égale à la probabilité théorique d’apparition dans la population : Up=p. Ceci est vrai uniquement lorsque l'échantillonnage est aléatoire. Dans le cas d'échantillons non aléatoires, l'estimateur est biaisé et les conclusions tirées d'intervalle de confiance ou de test paramétrique seront inexactes. Condition d'approximation par une loi normale La distribution d'échantillonnage de est approximativement normale si le nombre de succès et le nombre d'échec observés dans l'échantillon sont tous les deux supérieurs à Les conditions requises pour réaliser l'inférence statistique sur la proportion Lorsque nous voulons déduire des conclusions sur la proportion de la population à partir de la fréquence observée dans l'échantillon (en construisant un intervalle de confiance ou en effectuant un test paramétrique), la validité de nos conclusions dépend de la satisfaction de conditions. Avant tout calcul, il est donc important de vérifier que ces conditions soient remplies. Les conditions à vérifier pour la validité de conclusions sur la proportion sont les suivantes : Échantillon aléatoire : Les données observées proviennent d'un échantillon aléatoire Distribution normale : La distribution d'échantillonnage de doit être approximativement normale — le nombre estimé de succès et le nombre estimé d'échecs sont supérieurs ou égaux à 10. Indépendance : les individus formant l'échantillon sont tous prélevés indépendamment les uns des autres. Dans le cas d'un échantillon sans remise, la taille de l'échantillon doit être au moins inférieure à de la taille de la population. Examinons chacune de ces conditions de manière un peu plus approfondie. 13 3- Les critères d'échantillonnage 1. Les critères d'échantillonnage varient selon le contexte et l'objectif de l'étude ou de l'enquête. Voici quelques critères couramment utilisés pour l'échantillonnage : Représentativité de la population : L'échantillon doit être représentatif de la population à étudier. Cela signifie qu'il doit inclure des individus qui représentent différentes caractéristiques de la population dans des proportions similaires à celles de la population totale. 2. Taille de l’échantillon : Il s'agit du nombre d'individus inclus dans l'échantillon. La taille de l'échantillon doit être suffisamment grande pour obtenir des résultats significatifs et fiables, mais elle doit aussi être pratique en termes de coûts et de logistique. 3. Méthode d'échantillonnage : Il existe différentes méthodes d'échantillonnage, telles que l'échantillonnage aléatoire simple, l'échantillonnage stratifié, l'échantillonnage par grappes, etc. Chaque méthode a ses propres critères et exigences. 4. Caractéristiques démographiques : Les échantillons peuvent être stratifiés en fonction de caractéristiques démographiques telles que l'âge, le sexe, le niveau d'éducation, le revenu, etc., pour s'assurer que chaque groupe est représenté de manière adéquate. 5. Biais potentiel : Il est important de minimiser les biais potentiels lors de la sélection de l'échantillon. Cela peut inclure des biais de sélection, des biais de réponse, des biais culturels, etc. 6. Objectif de l’étude : Les critères d'échantillonnage doivent être alignés avec l'objectif de l'étude ou de l'enquête. Par exemple, si l'objectif est d'étudier les habitudes de consommation des jeunes adultes, l'échantillon devrait inclure une proportion significative de cette population. 7. Disponibilité des données : Parfois, les données nécessaires pour effectuer un échantillonnage peuvent être limitées. Dans de tels cas, des compromis peuvent devoir être faits, et les critères d'échantillonnage doivent être ajustés en conséquence.En résumé, les critères d'échantillonnage dépendent largement du contexte spécifique de l'étude, des objectifs de recherche et des ressources disponibles. Il est crucial de choisir des critères qui garantissent la représentativité de l'échantillon tout en tenant compte des contraintes pratiques Référence Livres Ancelle, T. & Rothan-Tondeur, M. (2013). Statistique pour les infirmières. Paris : Maloine. ISBN 978-2-224-03357-6. Ancelle, T. (2010). UE4 Évaluation des méthodes d'analyse appliquées aux sciences de la vie et de la santé. Paris : Maloine. ISBN 978-2-224-03027-8. Baillargeon, N. (2006). Petit cours d'autodéfense intellectuelle. Montréal : Lux. ISBN 978-2-89596-044-7. Principales chaînes Youtube utiles pour le cours Triées de la plus pertinente à la moins pertinente pour ce cours. Risque alpha La statistique expliquée à mon chat et Chat sceptique Thierry Ancelle Monsieur Phi Biostatistique Hygiène mentale 14 Science étonnante «Statistiques pour l'économie et la gestion» Anderson, Sweeney et Williams; «Eléments de statistique d’aide à la décision: cours et exercices résolus» par M.ELHAFIDI et D.TOUIJAR; «Théorie des sondage: échantillonnage et estimation en populations finies» par Yves Tillé; «Méthodes statistiques», P. TASSI; «Théorie des sondages »C. GOURIEROUX; «Méthodes statistiques de la gestion » J.L. BOURSIN 15