Introduction aux Méthodes Quantitatives PDF
Document Details
Uploaded by Deleted User
Juliette Maerten
Tags
Related
- POL 1803 Analyse des Techniques Quantitatives PDF
- Aide-mémoire pour l'analyse de variance (session POL-1803)
- Méthodes d'analyses quantitatives CRI 1200 PDF
- Méthodes Quantitatives 1: Production des données (MQ1) - Université Saint-Louis Bruxelles - PDF
- AFC et AFCM - Méthodes Statistiques PDF
- Méthodologie de recherche-294-326 PDF
Summary
Ce document est une introduction aux méthodes quantitatives. Il expose les définitions, les objectifs et l'organisation des cours, ainsi que les fondements de l'analyse statistique et des différents types de données et de variables. Le document est destiné à un public universitaire.
Full Transcript
Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Introduction aux Méthodes quantitatives Présentation: Définition: les méthodes quantitatives regroupent les méthodes recherche qui utilisent des outils d’analyses mathématique et de s...
Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Introduction aux Méthodes quantitatives Présentation: Définition: les méthodes quantitatives regroupent les méthodes recherche qui utilisent des outils d’analyses mathématique et de statistiques donc principalement des méthodes statistiques mais pas seulement. Pourquoi étudier les méthodes quantitatives ? - omniprésences - réduire la complexité - décrire et expliquer les phénomènes - communiquer (universel) - l’une des méthodologies d’étude et de recherche fondamentales - outil de prise de décisions Objectifs et organisation des cours Objectifs L'objectif de ce cours n'est pas d'apprendre les formules statistiques, mais plutôt comprendre les logiques des méthodes statistiques ; savoir construire, organiser et trier des données chiffrées ; examiner, interpréter les données et présenter les résultats. En outre, l'accent est mis sur le développement du sens critique à l'égard des informations quantitatives qui sont aujourd'hui omniprésentes dans la littérature scientifique et dans les médias. Organisation Cours Magistraux (10 séances de 2h) – Examen partiel QCM Conférences de Méthodes (9 séances de 2h) – Évaluation continue Séances 1-5: Monsieur Federico Castelli Séances 6-9: Moi-même Programme: - fondement de l’analyse statistique - les données - (re)codage et analyse uni-variable - présentation et lecture des résultats - inférences statistique - croiser deux variables - analyse multivariée 1 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives - analyse de données relationnelles: Analyse de Réseaux Sociaux Méthode d’étude et de recherche Méthodes quantitatives, qualitatives et mixtes variables: Elles rassemblent les différentes valeurs formiques peut avoir une pté ou une caractéristique. elles ne doivent pas se superposer = la même caractéristique ne peut pas être mesurée plusieurs fois dans la même variable. types de variables: qualitatives non-ordonnées qualitatives ordonnées quantitatives dichotomiques: binaire, Méthodes d’étude et de recherche 2 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Fondements de l’analyse statistique Séance 1 Petite histoire de la statistique Statistique: statisticus → «relatif à l’État». Étude numérique de phénomènes liés à l'État XVIIIe siècle → Intégration des probabilités Grands noms de cette période: Pierre de Fermat, Blaise Pascal, Thomas Bayes et Adolphe Quetelet, entre autres. Cependant, cet intérêt pour les probabilités dans les statistiques est apparu plus tôt, principalement dans l'évaluation des risques par les gouvernements et les compagnies d'assurance (e.g., les pirateries barbaresques en Méditerranée – XVIe siècle) C'est l'économiste allemand Gottfried Achenwall (1719-1772) qui a utilisé pour la première fois le mot «statistique» dans son sens actuel dans son Compendium of the Political Constitution of the Principal European Countries and Peoples → La statistique représentant pour lui l'ensemble des connaissances que doit posséder un homme d’État 3 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Application principalement à la démographie et à l'économie XIXe siècle → industrie et à d'autres sciences (e.g., à la biologie avec la redécouverte des lois de Mendel). Développement important au XXe siècle, avec un essor majeur à partir des années 1940 et l'avènement de l'informatique. Aujourd’hui… Omniprésentes et incontournables Les deux branches de la statistique Statistique descriptives et inférentielle deux grandes branches, les statistiques descriptives et les statistiques inférentielles Les probabilités (théories et distribution -> Pont Statistique descriptive statistique inférentielle La statistique descriptive (AKA analyse La statistique inférentielle (statistique des données) → description, mathématique ou statistique inductive) visualisation et résumé. → modèles, inférences et prédictions L'outil de base et fondamental → le Utilisée pour modéliser des tendances tableau de fréquences dans les données et tirer des conclusions sur la population étudiée. Échantillons ⟹ population Divisées en statistiques paramétriques et statistiques non-paramétriques Cherche à déduire et à tirer des conclusions sur des situations générales au-delà de l'ensemble des données Permet de décrire et/ou de caractériser obtenues. un ensemble de données. Part du principe que les données sont Ne sont qu'une description des régies par un phénomène sous-jacent données, ne supposent pas que les qui leur fait prendre une valeur ou une données ont des propriétés autres que autre. celles qui peuvent être décrites par les statistiques susmentionnées Fondement de l’analyse statistique L'analyse statistique repose sur trois grands principes : la mise en équivalence, la prise en compte du hasard et la loi des grands nombres. Un quatrième sujet majeur est celui de la corrélation et de la causalité. 4 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives La mise en équivalence Tout comptage implique la mise en équivalence d'éléments, qu'il s'agisse d'individus, d'activités et/ou de caractéristiques. La mise en équivalence est indispensable pour faire apparaître des régularités. Cela implique des choix à faire qui auront des implications sur les analyses, les résultats et les interprétations qui en découleront. En SHS, le comptage – et donc la mise en équivalence – présente une grande complexité. Tout cela dépendra en grande partie de ce que nous voulons étudier, de la question de recherche La mise en équivalence doit se faire en évitant deux pièges: Le postulat de non-commensurabilité La réification des variables, l’oubli de leur construction Mettre en équivalence ⟹ réflexivité permanente Le comptage, et donc l'équivalence, implique la définition d'unités d'analyse (l'objet compté) et de variables (les caractéristiques ou propriétés considérées). La prise en compte du hasard Le « hasard » : combinaison de petites causes indépendantes les unes des autres qui produisent des variations considérées comme négligeables pour une analyse donnée Le hasard est un type d'imprévisibilité (bien qu'il ne regroupe pas toutes les imprévisibles) qui peut être identifié et isolé des régularités L’analyse statistique implique toujours une comparaison entre ce qui est observé et ce qui résulterait du « hasard », afin d’identifier et de mettre en évidence des régularités. Le hasard est relativement facile à identifier lorsque nous disposons de données populationnelles, mais il est beaucoup plus compliqué lorsque nous travaillons avec des échantillons de population. La loi des grands nombres Gerolamo Cardano (1501-1576) → la précision des statistiques empiriques augmente avec le nombre de tentatives (le nombre d'observations), Jacob Bernoulli: première preuve mathématique (en 1713). C'est en 1837 que Siméon Dénis Poisson décrit plus en détail le principe sous le nom de la "loi des grands nombres" 5 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Des régularités observées sur un échantillon d’activités se retrouvent à des niveaux plus amples de masse. La loi des grands nombres explique pourquoi la moyenne d'un échantillon aléatoire d'une grande population aura tendance à être proche de la moyenne de la population entière. Loi des grands nombres justifie l’utilisation d'échantillons. Cependant, la loi des grands nombres n'est pas infaillible, et il existe une variété de situations (notamment dans le domaine social) où les phénomènes observés ne sont pas indépendants, ou en d'autres termes, sont interdépendants. Idée de base: Distribution normale Dans d'autres cas, ce sont des phénomènes méso, comme l'action collective, qui impliquent des interactions ou des ajustements réciproques et qui rompent avec la condition d'indépendance de la loi des grands nombres. D’autres méthodes sont nécessaires. Corrélation et causalité Corrélation: la force et la direction d'une relation linéaire et la proportionnalité entre deux ou plusieurs variables statistiques. Tendance → les variations d'une variable s'accompagnent de variations dans d'autres variables. La corrélation s'accompagne souvent d'interprétations causales, c'est-à-dire que si des variations de A s'accompagnent de variations de B, A peut être interprété comme la cause de B. Mais …. prédisposition à voir des modèles /schémas Tendance à recueillir des informations qui soutiennent des idées préexistantes Biais Confondre coïncidence et corrélation, corrélation et causalité. toutefois, la corrélation n’implique pas la causalité !!! Fondements de l’analyse statistique Corrélation et causalité Le fait qu'il existe une corrélation entre deux phénomènes n'implique pas qu'il y ait une relation de causalité. Les phénomènes peuvent: Être indépendants Dépendre d'un autre phénomène non pris en compte. Aussi, que la relation de cause à effet soit l'inverse de ce que nous interprétons par corrélation (B est la cause de A). 6 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives dans le cas où un élément A causerait un élément B. Au minimum: A doit précéder B Le deux doivent covarier (varier ensemble) Aucune explication concurrente ne peut mieux expliquer la covariance de A et B Ces éléments sont donc Nécessaire mais pas suffisants Bien que la corrélation puisse contribuer à la preuve de la causalité, ce sont le plan de recherche, le cadre théorique et méthodologique, et les différents analyses complémentaires (robustesse, méthodes mixtes, analyse longitudinale, etc.) (ou même d’autres études !) qui peuvent mettre en évidence la causalité (les causes derrière des régularités statistiques). 7 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Unités statistiques et types de variables Intro les unités statistiques se Les variables sont donc Enfin, nous distinguons donc des trouvent donc à gauche, et se en colonnes au-dessus du données, observations ou valeurs, définissent comme tableau et se définissent qui représentent donc les « Une unité statistique est une comme un élément qui informations recueillies unité d'observation ou de peut prendre des valeurs quatre sources principales: mesure pour laquelle des différentes à l’intérieur - enregistrements: commes les données sont recueillies ou d’un ensemble, d’un vestiges archéologiques, les dérivées. » INSEE Plusieurs système, d’une relation. archives, les dossiers de types: individus, ménages, Les variables rassemblent comptabilité, avec une fiabilité entreprises, organisations, les différentes valeurs ou et une sources plus ou moins pays, caractéristiques ou formes que peut avoir complète activités, … Comprendre les une propriété ou une - observations :enregistrer une unités statistiques et savoir caractéristique. réalité sociale, qui représente passer d’un type d’unité à un Elles ne doivent pas se aussi ses limites, il a des autre est essentiel dans le superposer ! entretiens ouverts, d’autres travail exploratoire. Types de variables : plus fermés Qualitatives - questionnaire non-ordonnées - expérimentation:reproduire un Qualitatives ordonnées phénomène sur lequel on va Quantitatives retenir des observations Dichotomiques comme l’usage de la 8 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives psychologie sociale dans l’économie comportementale (A retenir) les données =élémt fondamental de toute analyse quantitative. Première étapes -> comprendre d'où proviennent les données, comment elles ont été construites et quelles sont leurs limites Les données Matière première de l’analyse quantitative Sources de données Les sources de données pour une analyse quantitative peuvent être très diverses. Quatre sources principales: - enregistrements - observations - questionnaire - expérimentation Population et échantillon Population: Ensemble d’éléments ou d'événements similaires qui partagent une ou plusieurs caractéristique pertinents pour une question de recherche ou une expérience en SHS -> recensement La taille de la population n’est pas importante Population et échantillon Echantillon: sous-ensemble d’éléments d’une population statistiques inférentielles -> échantillon représentatif fraction d’échantillonage méthodes en SHS-> Sondage 9 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Qualité et pertinence des données Les données sont l’élément fondametnel de toute analyse quantitiave il est donc crucial d’être conscient de sa construction, sa précision et de sa pertinence pour répondre aux questions de recherche posées Première étape-> comprendre d’ou proviennent les données, comment elles ont été construites et quelle sont leurs limites. des données non-vérifiées, mal construites ou inadéquates pour répondre aux question des recherche génèreront de fauses interprétations et remettront en question la validité de l’étude. Ceci est particulièrement pertinent pour les études réalisées par des tiers. Qualité et pertinence des données - croisement des données ou d’informations Qualité et pertinence des données nous pouvons rouver ou construite des données qui ne correspondent pas aux informations que nous voulons obtenir: diverses raisons: - problèmes d’enregistrement - que la question en soit pas correctement formulée - utiliser les mauvais outils pour ce que l’on veut mesurer - les donnée peuvent ne pas correspondre à ce que l’on veut mesurer - mes données peuvent se référer à des poualtiosn non pertinentes pour l’étude ou à des échantillons non représentatifs. la façon dont les données ont été collectées eut avoir une grande influence sur les données la manière dont les données ont été construites doit être analysée et faire l’objet de relfexion sur leurs limites et biais - commission des sondages - Loi nº2002-214 du 19 février 2002 Données individuelles et agrégées Les données individuelles (micro) portent sur les unités statistiques de base. les donnés agrégées (macro) sont issues de l’agrégation de données individuelles et proviennet généralement d’organismes institutionnels producteurs de données bien qu’il soit possible de transformer les données individuelles en données agrégées, l’inverse ne l’est pas sauf expcetions. Anonymisation et protection des données Une grande majorité des bases de données sont anonymisées Réversible ou permanente. Le plus simple → le codage - éffectué avant la collecte des données le niveau de précisions dépende de: la manière dont les données sont collectées notre coniassance de l’objet détude 10 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives la source des informations Les données à caractère personnel sont soumises à un régime juridique: le règlement général sur la protection des données personnelles (RGPD) applicabla à dans tous les pays de l’UE. La loi française du 6 janvier 1978 dite “infroamtique et libetés” est adaptée en conséquence l’autorité de référenc en France pour la protection des données personnelles est al Commission natioanle de l’informatique et des libertées (CNIL) Quelles sont les données personnelles ? les données àcartère personnels sont toues les onfroamtiosn relatives à un personne physique identifiée, ou qui peut être identifiée en croisant les données la concernant Exemple: numéro de sécu sexe, niv d’étude, état civil… si elles sont croisée avec d’autres données permettant l’identification de la personne, comme l’adesse du domicile ou du lieu de travail. Sont des données personnelles le nom l’âge, le métier, une photo, l’adressepostale, l’adresse amil, le numéro de telephnée, la date de naissanc le numéro IP (internet Protocol), tout numéro d’identification, une empreinte digitale, des données de 11 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives géolocalisation, et tous “éléments spécifiques propres à son identité physique physiologique, génétique, psychique, économique culturelle ou social.” Le Règlement Général sur la Protection des Données est applicable depuis le moment de la collecte des données et pendant tout le traitement des données personnelles. La loi s'applique tant que les données sont des données à caractère personnel. Par conséquent, la non-collecte de ces données ou leur anonymisation fera que les données ne seront pas soumises à ce cadre législatif. Il existe des situations dans lesquelles le traitement des données personnelles est autorisé. Dans tous les cas, le responsable du traitement doit avoir une raison valable de traiter les données personnelles : il doit pouvoir justifier du motif pour lequel il traite ces données. Un traitement de données est licite dès lors qu’il est fondé sur une de ces six bases juridiques : 1. le responsable de traitement a obtenu des personnes concernées, un consentement exprès à ce traitement de leurs données personnelles ; 2. le responsable de traitement traite ces données personnelles parce qu’il y est tenu, en vertu d’une obligation légale ; 3. le traitement est nécessaire à la sauvegarde des intérêts vitaux de la personne concernée; 4. le traitement est nécessaire à l’exécution d’une mission d’intérêt public (ou relevant de l’exercice de l’autorité publique dont est investi le responsable du traitement) ; 5. le traitement est nécessaire aux fins des intérêts légitimes poursuivis par le responsable du traitement […] ; 6. le traitement est nécessaire à l’exécution d’un contrat auquel la personne concernée est partie […] En parler aussi au Délégué à la protection des données (DPD, souvent aussi appelé le DPO (Data protection officer), de l’établissement ou organisation pour laquelle on travaille. C’est la personne chargée de vérifier qu’une personne (publique ou privée) respecte les obligations légales en matière de protection des données personnelles. Les données interdites Loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés Article 6 : Il est interdit de traiter des données à caractère personnel qui révèlent la prétendue origine raciale ou l'origine ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale d'une personne physique ou de traiter des données génétiques, des données biométriques aux fins d'identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique. 12 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Article 95 : Tout profilage qui entraîne une discrimination à l'égard des personnes physiques sur la base des catégories particulières de données à caractère personnel mentionnées au I de l'article 6 est interdit. Bien sûr, la loi prévoit des exceptions à ces interdictions Ou trouver les données ? Codage des données Codage ⟹ mise en équivalence. Rappel: L’équivalence, et donc le codage, implique plusieurs décisions. Pré-codage, post-codage et recodage Pre-codage des données Le post-codage Le recodage Effectué avant la collecte des données. Effectué après la collecte des Il a lieu lorsque nous Le niveau de précision dépend de: données. Mise en adaptons les données pour La manière dont les données sont équivalence en fonction des des analyses précises. collectées; besoins de recherche. notre connaissance de l'objet d'étude; Traitement de l’information Par exemple: la source des informations brute Changer le type de variable Agrégation des données Pondération Prendre son temps pour le pre-codage! Anonymisation Les missing data Le pre-codage déterminera en grande partie les étapes ultérieures de l'analyse 13 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Le code-book Toutes ces mises en équivalence, ces codages, peuvent être nombreux et difficiles à déchiffrer À quoi correspond la valeur UMR245Occ de la variable Lab_cod_2_rev ? Les correspondances des codes, leurs significations, ainsi que les motivations de ces dernières, sont rassemblées dans les livres de codes. Précision et de rigueur How to make a pie ? assure la reprodcutibilité de la recherche - origine et constructiondes données - codage, modalités et recodages… - choix et executation des analyse… Unités statistiques et types de variables Variabels qualitatives non-ordonnées inforamtios classées en catégories (modalités) sans ordre et/ou hiérachie entre elles - information brute -> non exploitable directement - modalités -> exploitable > codage (pre/post) -> mise en équivalence et observation codage numérique ? les mesures basées sur les moyennes ou les variantes ne peuvent être appliquées 14 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Les variables qualitatives-ordonnées Informations classées en catégories (modalités) avec un ordre et/ou hiérarchie entre elles. Codage numérique: Un ordre mais pas une valeur Les mesures basées sur les moyennes et les variances sont applicables mais avec prudence. 15 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives variables d’intervalle ( toujours dans les variables qualitatives ordonnées) Forme de variable qualitative ordonnée Les catégories sont des intervalles ou des tranches de valeurs quantitatives. Critères de construction du chercheur/observateur Capturer des éléments de similarité et de différence en regroupant des données quantitatives. Les intervalles ne doivent pas nécessairement être de même ampleur les uns par rapport aux autres Codage: Similaire aux autres variables qualitatives ordonnées + coefficient pour chaque intervalle Ce qui avait été mentionné avec ces variables c’est qu’elle même sont porteuses d’un certain rapport social-idéologique: choisir en soi le critère c’est déjà un acte politique en quelque sorte. Variables Quantitatives Appels aussi numériques. Elles quantifient les propriétés des observations en utilisant des nombres. On distingue entre les variables discrètes et continues. 16 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Pas de codage → Le numéro est l'information elle-même Des calculs de mesures de tendance centrale et de dispersion peuvent être effectués. Les variables dichotomiques Appels aussi booléennes, binaires ou dummy. Entre quali et quanti. Deux catégories ou modalités → Existe/N’existe pas Codage 1/0 celles ci ont deux modalités : “exsite” “n’exsite pas” codage 1/0, il y a de nombreuses types de variables souvent le type de variable n’est pas définit par la faute des données mais par le chercheur -> une information peut etre codée ( et recodée) en diff types de vairbaes en fonction de critère de recherche. Ce n’est pas toujours le cas. Souvent, le type de variable n'est pas défini par la nature des données mais par le chercheur → Une information peut être codée (et recodée) en différents types de variables en fonction des critères de recherche. Mais ce n’est pas toujours le cas! 17 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives La représentativité Parfois, nous disposons des informations sur l'ensemble de la population que nous voulons étudier, et les analyses que nous effectuons se réfèrent à cette population. Cependant, il peut s'avérer difficile, coûteux ou même impossible (voire parfois inutile) de disposer des informations d'une population entière, et seule une partie de la population est disponible. C'est ce qu'on appelle un échantillon Inférence ⟹ Échantillon représentatif Le rapport entre la taille de l'échantillon et la population qu'il représente → Aucun effet sur la précision des mesures. Normalement → Incertitude quant à la représentativité de l'échantillon. C'est là que la taille de l'échantillon peut avoir un effet sur la représentativité. Marges d'erreur Va de soit que la sélection des unités statistiques devra être pertinente par rapport à ce que l'on veut étudier. Méthodes d'échantillonnages et biais de la représentativité Deux grandes méthodes d'échantillonnage existent - échantillonnage aléatoire ou probabiliste - échantillonnage non aléatoire ou empirique utilisation de l’un ou de l’autre type d'échantillonnage échantillonage aléatoire ou probabiliste - sélection aléatoire, règles de probabilité - basées sur la loi des grands nombres. - Bonne connaissance de la population et bon accès aux cas. Mesurer correctement l’emprécision ou l’incetitue associée à l’échantillon 18 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Il existe plusieurs types d'échantillonnage probabiliste: Échantillonnage aléatoire simple Échantillonnage aléatoire systématique Échantillonnage aléatoire stratifié Échantillonnage aléatoire par grappes ou conglomérats Marges d’erreur En établissant un niveau de confiance, nous pouvons estimer une marge d'erreur des mesures de l'échantillon (intervalle de confiance). Voyons ici pour une proportion. Elle dépendra de trois éléments: Le niveau de confiance que nous avons fixé La taille de l’échantillon La proportion de la modalité mesurée Niveau de confiance Les valeurs habituelles sont 90%, 95% et 99%. Ce niveau est décidé par nous et indique dans quelle mesure nous supposons que nous pouvons avoir tort ou raison sur la représentativité de l'échantillon par rapport à la population totale. Taille de l’échantillon Plus la taille de l'échantillon est grande, plus la marge d'erreur est faible. La proportion de la modalité mesurée Lors de la mesure d'une caractéristique, plus la distribution de la mesure est équilibrée (proche de 50%), plus la marge d'erreur est grande. 19 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Echantillonage empirique ou non élatoire Plusieurs méthodes méthode des quotas La méthode des quotas empiriques consiste à reproduire un échantillon en respectant les proportions observées dans la population sur les propriétés ou caractéristiques qui nous intéressent ou en lien avec le sujet étudié. la diversité à l’itnérieur des qutoas sera toujours inconnue. dans le cas de Capacités d'inférence statistique: comment mesurer l’incertitude ? Expérience empirique → Marges d'erreur des échantillons aléatoires. Même si nous n’avons pasde mesure des marges d’erreru, l’échantillonage empirique fonctione assez bien. Autres méthodes d'échantillonnage empirique: 20 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Echantillonnage de boule de neige ou de réseaux / Echantillonnage des itinéraires : - boule de neige= selectionner une unité statistique de départ plus ou moins alétroirement et pas itinéraire c’est pas contact de la première personne interrogées, utilisé surtout pour du qualitatif, nous n’avons aucune mesure dela marge d’erreur. Méthode d’ échantillonnage de commodité ou d’échantillonnage accidentel: écahntillonage de commodité ou échantillonage accidentel:pas de quotas, pas demairitise surl’erreur, bpc de biais géographiques et ce n’est aps lreprésetation de la population Méthode d’échantillonnage intentionnel ou subjectif: commetypique de la pop et en fonction des types de recherches, avec là aussi des erreurs et des biais. Il ne fait pas confondre avec une selection de cas interntionnels pour démontrer “cherry picking” : c’est une volonté délibrérée de prouver quelque chose, souvent un stéréotype et l’autre cas intentionnel c’est plutot de sleectionner une variable demanière itentionnel, comme étudiant de SCpo qui sera représentatif de cette exemple. Exemple: le niveau de précision, la manière dont on affirme les choses, être trop précis c’est mauvais, il faut savori vraiment par rapport à quelles population on fait référence. enquête fait sur internet sur quotas échantillonge sur 1500 cas. Ils ne prennent pas en compte l’influence des variables telles que l’âge etc. 21 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives Bien que nous nous sommes intéressées principalement aux biais associés à la méthode d’échantillonage, il existe d’autre types de bais qui peuvent se produire dans l’échantillonge et qui affectent la représentativité. voici quelqeus types de biais ou d’erreur qu’il convient de connaître: - erreur de couverture: annuaire téléphonique fait d’utiliser une liste ui ne correspond pas au types que gens auxuqels on veut accéder. - biais de sélection: il faut donc être capable de mesurer la probabilité que chaque interviewé soit interrogé. Le biais peut être combiné à d’autres type de biais, comme par ex lors d’une enquete de selection on n’a pas de mairtise sur la probabilté de chacun facteur - probabilité de survie sélection qui répond à un certain critère, on va omettre les gens qui ne correspondent à ce critère même s’ils peuvent avoir des informations. pertienentes, le cas qui nous interessentne participent à l’enquête. Dans le cas du casque, lorsu que les soldats reivennent certains pesnnet qu’il ne marche pas, mais simplement ceux qui mouraient ne pouvaint pas revenir à l’hotpore - erreur de traitement: enregister les reersu elles peuvent venir de nombreuses sources différentes. aussi en changement de format. - biais d’autosalection oude réponse volontaire: les gens qui ont envie departiciper vont avoir plus de chances d’être selectionnée. - Dans le cadre de l’autosélection -> bais de non-réponse -Bien qu’il soit généralement traite comme un biais différent. cas Literrary Digest : petit biais au niveau de la sélection énorme problème de non réponse. 2 millions de résonse contre 7 millions de personnes interrogées. Biais mnséique et bais de l’observateur : les attentes sociales peuvnet également générer des biais. L’observateur ou l’enquêteur peut exercer une influence sur la personne enquêtée. Rectification de l’échantillonage: la pondération certins problèmes d’écahntillonage peuvent être corrégiées à posteriori, notamment dans le cas d’un écahntillonage par quotas la sous ou sur prerépsenation de certains catégogires de population put etre corrigée par la pondération. Données manquantes: les données manquantes ou missing data sont des bsances d’infornofamtion observations sur une variable certte perte d’information - selon son ampleur- peut avoir des effets la representatvité ainsi que sur la manière dont nous ouvons effecter des analyses. D’une certine manière, l’absence d’information peut correspondre uneinformation en soir plusieurs strates = retirer ou suppermer de l’annaysles les unités statitisue deux limites importantes 22 Juliette Maerten Séance 1, Introduction aux méthodes quantitatives - réduction de la taire de notre population ou de l’échantillon - profils particuiers/pre-codage => biais Quel parfum de préférez-vous ? attribuer ou imputer une valeur aux cas de missing data: plusieurs procédures ou statégies : - aléatoire - remplacer pas des moyennes - imputation para similarité:identifier ceux qui vont se spécialiser remplacer par les mêmes données si les enfants aiment la glace licorne, on peut de base leur roposer une glace à llcorne par exemple. - imputation basée sur d’autres informations ou variables liées: si une personne aime la menthe en général et le vert elle sera susceptible de de prendre une glace à la menthe. le regroupement avec d’autres modalités est également une forme d’imputation de valeur. enfin, nouspouvonsannalyser ces données comme unemodlaité supp (notte qur certaines procédures d’analyse ne le permttent pas) Cela peut se faie avec ou sans pondértion. Autre cas pouvant necessiter: une recodage sont les cas extrèmes ou données aberrantes (outliers), et les modalités desous-effectif. 23