Méthodes Quantitatives 1: Production des données, Gogo 2023-2024 (BPOLS1330) PDF

Summary

Ce document présente un cours sur les méthodes quantitatives 1, plus spécifiquement sur la production de données. Il couvre différents aspects tels que l'épistémologie, l'échantillonnage, la conception de questionnaires, et le management de données. Le cours semble être destiné à un niveau universitaire, probablement un premier cycle.

Full Transcript

Gogo, 2023-2024 BPOLS1330 Méthodes Quantitatives 1 : Production des données Nathan Gurnet Exam à court ouvert...

Gogo, 2023-2024 BPOLS1330 Méthodes Quantitatives 1 : Production des données Nathan Gurnet Exam à court ouvert (50%) + tp pas obligatoire avec travail de groupe (50%) La note finale est le résultat d’une moyenne géométrique des deux cotes 𝑁𝑜𝑡𝑒!"#$%& = &𝑃𝑜𝑖𝑛𝑡𝑠&'$(&# × 𝑃𝑜𝑖𝑛𝑡𝑠)*$+$"% Table des matières Chapitre 1. IntroducRon......................................................................................................................... 4 ParRe 1. Déconstruire des idées préconçues sur les staRsRques....................................................... 4 ParRe 2. D’autres erreurs.................................................................................................................... 6 Chapitre 2. Eléments épistémologiques................................................................................................. 7 ParRe 1. La nécessité de la rigueur méthodologique.......................................................................... 7 ParRe 2. Paradigmes méthodologiques.............................................................................................. 7 ParRe 3. La démarche de rechercher quanRtaRve en sciences sociales........................................... 10 1. ProblémaRser, deux définiRons............................................................................................ 11 2. ProblémaRser, ne pas confondre problème social et problémaRque................................... 11 3. ProblémaRser, formuler des hypothèses.............................................................................. 11 4. La noRon de falsifiabilité/Réfutabilité................................................................................... 12 Chapitre 3. Méthodes d’échanRllonnage.............................................................................................. 15 ParRe 1. Concepts de base................................................................................................................ 15 ParRe 2. Les échanRllons probabilistes............................................................................................. 16 1. L’échanRllon aléatoire simple................................................................................................ 16 2. L‘échanRllon aléatoire à Rrage systémaRque........................................................................ 17 3. L’échanRllon straRfié............................................................................................................. 17 4. L’échanRllon aréolaire (par grappes)..................................................................................... 19 ParRe 3. Les échanRllons empiriques............................................................................................... 21 1. L’échanRllonnage quotas....................................................................................................... 21 2. L‘échanRllonnage accidentel (de convenance)...................................................................... 21 3. L’échanRllonnage en boule de neige..................................................................................... 22 4. L’échanRllonnage volontaire................................................................................................. 22 ParRe 4. ComparaRfs des méthodes d’échanRllonnage................................................................... 23 ParRe 5. L’échanRllonnage mixte...................................................................................................... 23 ParRe 6. Taille et précision d’un échanRllon..................................................................................... 23 1. Marge d’erreur d’un échanRllon........................................................................................... 23 2. Tailles d’échanRllon............................................................................................................... 24 1 Gogo, 2023-2024 BPOLS1330 Chapitre 4. ElaboraRon du quesRonnaire............................................................................................. 27 ParRe 1. Processus de créaRon......................................................................................................... 28 ParRe 2. QuesRons et variables........................................................................................................ 29 1. Les quesRons ouvertes.......................................................................................................... 29 2. Les quesRons fermées.......................................................................................................... 30 3. RelaRons entre les quesRons et les variables....................................................................... 31 ParRe 3. Ecrire les quesRons............................................................................................................. 34 1. L’univocité............................................................................................................................. 34 2. La sensibilité des quesRons................................................................................................... 34 3. Point d’aaenRon................................................................................................................... 36 4. Prétester un quesRonnaire................................................................................................... 37 5. Meare en page un quesRonnaire......................................................................................... 37 6. PassaRon du quesRonnaire................................................................................................... 37 Chapitre 5. Base de données................................................................................................................ 39 ParRe 1. NoRons de base.................................................................................................................. 39 ParRe 2. CréaRon d’une BDD............................................................................................................ 40 1. Paramétrer les variables....................................................................................................... 40 2. Documenter les variables, un ouRl : le codebook................................................................. 41 ParRe 3. IntroducRon à Excel............................................................................................................ 42 ParRe 4. IntroducRon à SPSS............................................................................................................. 42 Chapitre 6. GesRon des données.......................................................................................................... 43 ParRe 1. Le data-management, qu’est-ce ?....................................................................................... 43 ParRe 2. Documenter les variables................................................................................................... 44 ParRe 3. Transformer/créer des variables......................................................................................... 45 1. Compute Variables................................................................................................................ 45 2. Recode Variables................................................................................................................... 47 3. Count.................................................................................................................................... 49 4. Structures condiRonnelles.................................................................................................... 50 5. Résumé................................................................................................................................. 51 ParRe 4. GesRon des données et d’affichage.................................................................................... 51 1. SélecRon condiRonnelle des observaRons........................................................................... 51 ParRe 5. Le data management en recherche et en entreprise......................................................... 53 Chapitre 7. Analyser les données.......................................................................................................... 54 ParRe 1. Eléments staRsRques descripRve....................................................................................... 54 1. EffecRfs et fréquences........................................................................................................... 54 2. Indicateurs de tendances centrales...................................................................................... 55 2 Gogo, 2023-2024 BPOLS1330 2. Indicateurs de tendances centrales...................................................................................... 56 3. Réfléchir à l’uRlité des staRsRques produites....................................................................... 57 ParRe 2. Présenter des staRsRques................................................................................................... 57 1. Les tableaux.......................................................................................................................... 57 2. Les graphiques...................................................................................................................... 58 3. Le texte................................................................................................................................. 58 ParRe 3. Contrôler la qualité d’un échanRllon.................................................................................. 59 1. GesRon des non-réponses.................................................................................................... 59 2. GesRon des individus aberrants............................................................................................ 60 3. Améliorer la représentaRvité................................................................................................ 60 Chapitre 8. Données secondaires & concepts démographiques.......................................................... 61 ParRe 1. Types de données............................................................................................................... 61 1. Les données secondaires...................................................................................................... 61 2. Bases de données démographiques..................................................................................... 61 3. Bases de données thémaRques............................................................................................ 62 4. En résumé............................................................................................................................. 62 ParRe 2. IntroducRon à la démographie........................................................................................... 62 1. Le taux de brut de natalité.................................................................................................... 63 2. Le taux de fécondité.............................................................................................................. 63 3. Indice conjoncturel de fécondité.......................................................................................... 63 4. Taux brut de mortalité.......................................................................................................... 64 5. Espérance de vie................................................................................................................... 64 6. Est-ce suffisant pour mesurer la structure de la populaRon ?.............................................. 65 ParRe 4. Pyramide des âges.............................................................................................................. 65 Chapitre 9. Porter un regard criRque.................................................................................................... 66 ParRe 1. Les arRcles quanRtaRfs en sciences sociales...................................................................... 66 ParRe 2. DécorRquer le contenu et les résultats.............................................................................. 68 3 Gogo, 2023-2024 BPOLS1330 18/09/2023 Chapitre 1. Introduction Partie 1. Déconstruire des idées préconçues sur les statistiques On peut dire ce qu’on veut avec des chiffres, avec des staRsRques : comment savoir ce qui est vrai ou non, comment savoir ce que ces chiffres signifient vraiment (méthode, producRon). Idée 1 : Les sciences sociales sont des sciences molles. Les méthodes quan6ta6ves les aident à se rapprocher des sciences « dures ». On dit que les méthodes quanRtaRves, du fait qu’elles uRlisent des chiffres, sont du domaine de science dure >< méthodes qualitaRves qui travaillent avec des entreRens, des textes, et qui semblent donc moins rigoureuses et scienRfiques. le fruit d’une construcRon sociale et d’une imputaRon de valeur sociétale. Ø Auparavant, c’était l’inverse : les domaines des mathémaRques ou des sciences « dures » trouvaient que décrire les comportements sociaux était une chose plus complexe que de décrire le vivant et l’inerte -> aujourd’hui renversement de ceae idée. Les sciences veulent toutes démontrer quelque chose mais ce qui change entre elles ce sont les sujets d’étude et les méthodes très différentes pour démontrer ce que l’on dit. La quesRon du sens, des symboles et la centralité de l’interprétaRon sont inhérentes aux sciences sociales. En sciences sociales, deux méthodes > qualitaRve ou quanRtaRve permeaant d’apporter des réponses différentes : seuls les modes d’administraRon de la preuve changent d’une méthode à l’autre => SaturaRon Vs GénéralisaRon. Les résultats staRsRques (aussi corrects soient-ils) se basent sur des définiRons arbitraires des faits sociaux étudiés : ex« 5% des belges sont dépendants de drogues » - A parRr de quand est-on dépendant (et comment le mesure-t-on?) - Qu’est-ce qu’une drogue? (Cocaïne? Cannabis? Cigareae? Alcool? Chocolat? Jeux vidéo?) à les énumère-t-on ou laissons-nous le soin au répondant de déduire s’il/elle consomme des drogues selon sa propre opinion? - Qu’implique un tel pourcentage? Les méthodes quan/ta/ves vont apporter une réponse différente au problème étudié que les méthodes qualita/ves. L’interpréta/on des données (quali ou quan/) reste centrale dans les deux méthodes, nécessairement de l’interpréta/on. Idée 2 : Les enquêtes quan6ta6ves étudient une réalité objec6vable, « déjà-là », et produisent ainsi une vérité plus solide. Exemple du gouvernement Hollande affirmant qu’ils ont abaissée le taux de chômage de X % : vrai ? Comment catégorise-t-on le chômage ? Les chiffres donnés ne sont en soit pas mauvais mais on cache une parRe de la vérité. 4 Gogo, 2023-2024 BPOLS1330 Exemple d’une étude dominicale par Laurent Lesnard : Une quesRon : « vous arrive-t-il de travailler le dimanche? ». Une étude sur plusieurs années et au cours desquelles > changement d’un choix de réponse : de temps en temps devient parfois. Ce changement a eu un effet sur les résultats qui étaient de base constante. Le mot uRlisé peut faire basculer les résultats. Dans ces méthodes qualitaRves, il y a un problème de subjecRvité sur la manière dont on pose les quesRons. Exemple de l’enquête de LeSoir « Noir Jaune Blues » : type de quesRonnaire où l’on répondre sur une échelle de 1 à 5 > calcul d’une moyenne. La noRon des valeurs est subjecRve selon les personnes, varie. Idée 3 : Les enquêtes quan6ta6ves ont un degré d’objec6vité qui est plus important car il existe une sépara6on neGe entre l’enquêteur et l’objet. Le format de données stat permet d’avoir un plus grand nombre d’enquêtés mais il y a un plus grand fossé entre eux les enquêteurs et les répondants. L’école de Chicago : étude avec un groupe de contrôle « Est-ce qu’améliorer l’éclairage augmentera les rendements des travailleurs ? ». Pour constater cela, se rendre sur les postes éclairés et non éclairés > pas de différence car la présence des enquêteurs avait lui-même en impact. (Ex : veulent montrer qu’ils travaillent bien dans les deux cas) // quand on répond à un quesRonnaire : on subit l’influence de celui-ci et nos réponses sont différentes même si cela est anonyme -> on veut toujours présenter une certaine image de soi (ex : accentuaRon de certains traits répondant à la conformité) à désirabilité sociale. Le phénomène de désirabilité sociale impacte très fortement les enquêtes staRsRques : La désirabilité sociale est le désir des répondants à vouloir correspondre davantage à des normes qu’ils considèrent comme étant socialement idéales et valorisées. Ainsi, à chaque fois que l’on quesRonne une personne sur ses comportements, jugements ou praRques, un biais de réponse est possible dans le sens où ils ou elles vont avoir tendance à suresRmer les praRques/comportements qu’ils/elles jugent comme étant socialement désirables et inversement. Le sujet humain est réac/f aux enquêtes. Idée 4 : Les enquêtes quan6ta6ves se suffisent par elles-mêmes, leurs résultats meGent rapidement tout le monde d’accord car elles u6lisent des données chiffrées. Mais il y a toujours moyens de faire des erreurs. Exemple du paradoxe de Simson sur une étude des femmes fumeuses ou non en Angleterre > mesurer les différences sur l’espérance de vie entre les deux. Résultat : les femmes fumeuses vivent plus longtemps que les non fumeuses. Erreur dû au fait qu’on a interrogé une majorité de fumeuses dans une tranche d’âge jeune et une majorité de non fumeuses dans une tranche d’âge plus âgées avec donc plus de mortalité. Ce paradoxe montre une généralisaRon des résultats de groupes aux ind = oublier le facteur d’importance. Notre analyse stat doit toujours se baser sur de la théorie et du bon sens. 5 Gogo, 2023-2024 BPOLS1330 Exemple sur une base de données du FBI : leurs chiffres montrent que les blancs sont plus souvent condamnés à mort lors de meurtres or d’autres mises en forme des chiffres montrent l’inverse > données exactes mais elles sont mal interrogées. Responsabilité quand l’on fait ce genre d’analyse : on fait passer un certain message avec les chiffres que l’on donne où d’autres peuvent travailler dessus > responsabilité dans la récolte et usage des données. Présenter des données, c’est déjà les interpréter. Partie 2. D’autres erreurs Autres erreurs pouvant arriver : - Les erreurs de raisonnement : paralogismes, sophismes et généralisaRons hâRves o Socrate est mortel, les repRles sont mortels donc Socrate est un repRle o Le whisky coca rend saoul, le rhum coca rend saoul, donc le coca rend saoul - Les erreurs de concomitance, corrélaRon et de causalité : inférer un lien, voire une relaRon de cause à effet, de la coprésence de deux phénomènes o 80% des héroïnomanes ont d’abord consommé des drogues douces. La consommaRon de haschisch est une étape vers l’héroïnomanie. o 99% des héroïnomanes ont d’abord consommé du beurre. La consommaRon de beurre est une étape vers l’héroïnomanie. - Des variables confondantes et la causalité (médiaRon) o Le lit d’hôpital où le facteur de confondant est le fait d’avoir une maladie grave et donc d’être à hôpital, associaRon de l’hôpital et de la probabilité de mort. En soit, on peut aussi y aller pour rendre visite qqun. Ces rapides illustraRons montre qu’il faut rester vigilant à l’égard des données staRsRques (dans leur producRon, leur présentaRon et leur lecture). Les staRsRques sont dépendantes de leur mode de producRon Afin de permeare une compréhension poussée des chiffres présentés, il est nécessaire de détailler au maximum la méthodologie de producRon 6 Gogo, 2023-2024 BPOLS1330 21/09/2023 Chapitre 2. Eléments épistémologiques Partie 1. La nécessité de la rigueur méthodologique Rentrer dans un processus d’enquête en sciences sociales, c’est en accepter les critères Un maître-mot : « CirconspecRon mesurée » L’usage du qualificaRf « scienRfique » est parfois erroné Un seul ouRl : le contrôle du processus de producRon des résultats. Quelques exemples : Exemple 1 : Un ancien quesRonnaire sur le site de Metro. Le fait d’avoir écrit sur internet dans les années 2010 implique un certain filtrage des répondants > représentaRvité de personnes ayant accès à internet. + Les quesRons sont imprécises, vagues. De même pour les réponses (oui/non). Si l’on répond à un quesRonnaire, on a un gain, on obRent des points > certains répondront au hasard. Ø Le sondage n’est pas sérieux, peu de fiabilité sur les résultats qui en découleront, besoin de rigueur. Exemple 2 : ArRcle de presse sur les rapports sexuels des Belges entre 2003 et 2004. Avant de faire une étude, se poser la quesRon de l’apport informaRf que celle-ci apportera, uRle ? + enquête se fait également sur internet donc représentaRvité d’une certaine parRe de la pop. Ici, on nous donne beaucoup de chiffres sans explicaRon : l’écart entre ces chiffres est-il réellement significaRf ? Avons-nous interrogé les mêmes catégories de personnes pour établir une bonne comparaison ? Que s’est-il passé durant ceae année pour observer ces changements de chiffres ? L’enquête uRlise des mots forts pour appuyer : « écart frappant ». Ø Peu d’informaRon sur l’explicaRon des chiffres, besoin de rigueur. Rester dans la rigueur et sobriété méthodologique, ne pas tomber dans les /tres accrocheurs. Ne pas prendre les chiffres comme des vérités, être cri/que face à ce que l’on nous présente. Ne pas oublier d’être transparent sur la produc/on de nos chiffres afin de montrer que c’est une étude cri/que. Partie 2. Paradigmes méthodologiques Les ambiRons théoriques de la sociologie (B. Lahire) Il ne faut pas tomber dans le piège de considérer les sciences sociales comme une science à 1 niveau comme les mathémaRques ou la philosophie. Les sciences sociales arRculent constamment deux niveaux qui interagissent : Théorie et Matériaux empiriques Sans empirie, les concepts sont vidés de leur substance, dé-foncRonnalisés. « Théoriser en sociologue, c’est toujours théoriser sur matériau » Sans théorie, comment jusRfier les données à prélever dans « l’infinité du réel » et comment et pourquoi les meare en relaRon ? « Les données sont donc théoriquement toujours construites » 7 Gogo, 2023-2024 BPOLS1330 La recherche en sciences sociales : allier des concepRons théoriques à des réalités empiriques. Mais différentes manières (concurrentes et complémentaires) de meGre en pra6que l’esprit de la recherche en sciences sociales. Un débat récurrent de paradigmes… complémentaires ou concurrents Un paradigme est une manière de concevoir le monde tel qu’on voudrait l’aborder. - Modèle d’objecRvaRon de la connaissance du monde social. Dimension épistémologique : Comment construire un savoir valide - Définit les objets, les quesRons à poser, les façons d’y répondre - Intègre des théories, qui intègrent des concepts - Coup de projecteur En sciences sociales, différents paradigmes en concurrence >< pour les math ou la physique, bcp moins de paradigmes en concurrence car les nouvelles découvertes vont plutôt remplacer les anciennes. Dans les disciplines de sciences sociales, bcp plus de consensus au vu des différents paradigmes => besoin donc d‘apporter une jusRficaRon sur le choix de notre approche. Deux grands paradigmes en sciences sociales : Paradigme déducRf : on part de la théorie et on construit une problémaRsaRon pour aller chercher les informaRons afin de répondre à notre quesRon. On cherche des causalités, des grandes lois générales. On veut généraliser ces lois à l’ensemble de la populaRon avec la théorie, expliquer et prédire. 8 Gogo, 2023-2024 BPOLS1330 Paradigme inducRf : on préfère se laisser surprendre par le terrain > sur base de nos observaRons, on retourne à la liaérature pour façonner des hypothèses, une problémaRque, … On cherche d’abord le sens, des significaRons derrière les acRons des ind. Le nœud gordien : « GénéralisaRon et représentaRvité vs. Richesse et finesse » La manière de le trancher : Choisir (et jusRfier) une équaRon de précision/finesse et de standardisaRon 1) Quel est l’objet ? Est-il facilement mesurable ? o Si non : méthode qualitaRve o Si oui : comment le mesurer 2) Quelle va être mon unité de recherche? o Individu, un groupe, une organisaRon, un pays, une région… 3) Quel est le type de compréhension/d’explicaRon recherchée? Quel est le type d’informaRon que je veux avoir ? o ContextualisaRon (thick descripRon) OU inférence/généralisaRon : vaut-il mieux avoir quelques cas très précisément décrits ou une base de généralisaRon moins précises ? 4) Qu’est-ce qui est faisable? Qu’est-ce que je maîtrise ? o Faisabilité : selon budget (ex quant à grande échelle peut être cher), selon l’accessible, selon les connaissances des méthodes… => possibilité d’avoir des méthodes mixtes avec à la fois du qual et du quant mais désavantages : cela demande plus de moyens et connaissance pour faire l’associaRon des deux méthodes Sur les quesRonnaires standardisés, peu de richesse de l’info > pas assez détaillé comme pourrait l’être avec observaRon parRcipante. Les entreRens permeaent d’interpréter les réponses et de voir quelles réponses du quesRonnaire est la mieux adaptée. En somme, opter pour une méthode implique une volonté d’obtenir une certaine forme de réponse à une quesRon. 9 Gogo, 2023-2024 BPOLS1330 Partie 3. La démarche de rechercher quantitative en sciences sociales Affinité avec le raisonnement hypothéRco-déducRf : Pourquoi? Ø Raisons praRques et visée des staRsRques Ø Recherche de la représentaRvité et de comparabilité Ø SélecRon des données (quelles quesRons poser?) Ø Temps de construcRon du quesRonnaire et du traitement des données Ø Comment saisir du sens au travers de quesRons formalisées? Ø Manque d’interacRon entre enquêteur et enquêté (enquête en ligne) Ø NoRon du modèle staRsRque - Spurrious correlaRons Ø … Ø InducRf techniquement possible mais demande des compétences élevées dans le traitement de l’informaRon et de connaissance des thémaRques abordées. Analyses de traitement staRsRque du langage, uRlisaRon de bdd secondaires… Étapes « QuesRon de départ – exploraRon – problémaRque », cf. cours de DMSS Quelques rappels importants QuesRon de recherche – problémaRque – hypothèses Pour le reste (état de l’art, etc… : cf. cours de DMSS) Entre la quesRon de départ et la quesRon de recherche… Chercher à connecter une quesRon théorique à une réalité empirique. La quesRon de départ nous amène à creuser dans la liaérature, celle-ci va se spécifier et prendre forme au fil de la rechercher pour mener à une quesRon de recherche. Ceae QR est modulable jusqu’à un certain point. Quand on débute le quesRonnaire, on fige la QR : on la délimite et on ne peut plus vraiment revenir en arrière sauf si on refait tout le quesRonnaire. Qu’a fait l’état de l’art? Faut-il forcément une révoluRon? è OpéraRonnalité de la quesRon posée Retravailler l’adéquaRon aux critères : o univocité (un seul sens) & concision (rester au sens strict min pour la compréhension) o faisabilité o Non biaisée et ouverte (réponse ne peut être oui/non et ne peut être des hypothèses) o … et en phase avec ce que l’on sait sur le sujet (et comment on le sait) o Réaliste, ne pas vouloir refaire le monde 10 Gogo, 2023-2024 BPOLS1330 1. Problématiser, deux définitions « façon d'ar6culer un ensemble de ques6ons ou de problèmes en les référant à des concepts précisément déterminés » (DicRonnaire de Philosophie, Baraquin et al.). « un ensemble construit autour d'une ques6on principale, des hypothèses de recherche et lignes d'analyse qui permeGront de traiter le sujet choisi » (Beaud) IdenRfier, choisir l’angle d’aaaque et les ressources théoriques : définir ces ressources sous la forme de concepts, surtout uRliser les moins connus ExhausRvité vs angle d’aaaque = choix de laisser de côté certains éléments car on ne peut tout prendre en compte sur le fait social. Formuler des hypothèses 2. Problématiser, ne pas confondre problème social et problématique ProblémaRser en 4 étapes sous l’exemple du suicide d’E. Durkheim : Ø 1 / s’emparer d’une croyance partagée ou d’un constat reconnu relaRfs à l’objet qu’on entend étudier ; o On nous dit que le suicide est un acte personnel, « un acte de l’individu qui n’affecte que l’individu » ; que les raisons de se suicider sont toujours éminemment personnelles, étant liées au « tempérament du suicidé, à son caractère, à ses antécédents, aux événements de son histoire privée », et qu’elles ressor6ssent donc « à la seule psychologie » ; que le suicide a par conséquent toujours quelque chose d’imprévisible et d’inexplicable. Ø 2 / en Rrer une série d’inférences logiques ou d’énoncés prédicRfs ; o Il faudra donc s’aGendre à ce que le taux de suicide na6onal varie aléatoirement d’une année sur l’autre Ø 3 / faire apparaître un ou plusieurs éléments empiriques qui contredisent les inférences logiques ou les prédicRons qu’on vient de Rrer ; o On constate au contraire une très grande stabilité du taux de suicide na6onal. Par exemple, en France, en 1856, 11,6 habitants sur 100 000 se sont suicidés ; en 1857, ils étaient 10,9 ; en 1858, 10,7 ; en 1859, 11,1 ; en 1860, 11,9 ; et ainsi de suite. Ø 4 / se demander comment, si les croyances partagées ou les constats reconnus relaRfs à l’objet sont vrais, ces éléments empiriques peuvent exister. » o Une telle régularité n’est-elle pas étrange ? Si le suicide, au plan personnel, est un acte imprévisible, comment se peut-il que le taux de suicide s’avère à ce point prévisible ? o Constance dans les chiffres, taux de suicide régit par des lois sociales, phénomène social 3. Problématiser, formuler des hypothèses Qu’est-ce qu’une hypothèse? D’où viennent les hypothèses? CaractérisRques d’une bonne hypothèse o L’indicaRf présent o L’intérêt 11 Gogo, 2023-2024 BPOLS1330 o La faillibilité par la vulnérabilité empirique § Peut-ou y répondre par oui ou non? § Est-elle confrontable à l’empirie? v « L’emploi des docteurs est dépendant de la socialisaRon à l’ethos académique» v « S’il n’y avait pas eu le Brexit, l’Europe se serait effondrée » : on ne peut supposer sur des choses non produites v « il existe un racisme d’état aux Etats-Unis » v « Les choix humains sont déterminés par la volonté de Dieu » : comment mesurer ceae volonté ? v « Jacky frappe parce qu’il est méchant » v « Quels sont les mécanismes qui permeaent l’ascension sociale? » 4. La notion de falsifiabilité/Réfutabilité Existence de critère(s) permeaant de disRnguer les vraies des fausses proposiRons (éviter la « tautologie » = proposiRons qui Rennent d’elles-mêmes). But de la science = aaeindre la vérité absolue en l’approchant par des vérités relaRves -> StaRsRques = probabilités = degré d’incerRtude. La science promeut le scepRcisme organisés. Les thèses doivent pouvoir être discutées/ testées / réfutées aux niveaux > si je formule une hypothèse, il doit exister une anRthèse puis les tester. è Logique : une anRthèse existe è Empirique : peut-on tester l’anRthèse? è Méthodologique : existence de méthode permeaant de tester les deux hypothèses Modèles d’analyse – observaRon Démarche déducRve : passer de l’abstrait du raisonnement aux tests concrets dans la réalité Différencier o Ce qu’on veut expliquer (variables « dépendantes » - VD) = notre sujet d’étude o Ce qui va expliquer (variables « indépendantes » - VI) = ce qu’on chercher à démonter « Les femmes gagnent moins que les hommes » « Les personnes moins éduquées sont plus perméables au comploRsme » 12 Gogo, 2023-2024 BPOLS1330 Une procédure maîtresse : la décomposi/on o Deux étapes 1) ProblémaRque → hypothèses → concepts 2) Concepts→ dimensions → indicateurs → indices Il existe par contre des sujets pouvant aller dans les deux sens -> ex : est-ce que consommaRon de drogue donne de mauvais résultats scolaires ou ce sont les mauvais résultats qui amènent à une consommaRon de drogues ? => modèle causale pouvant aller dans les deux sens. Aller plus loin dans le développement : on a des hypothèses, mtn il faut les mesurer. = jusRfier et développer l’ensemble des quesRons présentes dans les quesRonnaires. Décomposer les concepts des hypothèses en indices > proposer qqchose de bien fait méthodologique pour éviter de se faire aaaquer. La quesRon de la longueur du quesRonnaire est importante car plus c’est loin, plus de chance que répondant ne le termine pas. ConsidéraRons épistémologiques : - Le choix des indicateurs est (au moins parRellement) arbitraire, et ne correspond jamais totalement au concept o MulRplier les indicateurs : parfois peut avoir semblant de quesRons similaires mais est uRles pour être sûr que répondant répondent choses similaires o Proposer une jusRficaRon - Deux critères d’évaluaRon d’un indicateur : o La validité o La fiabilité 13 Gogo, 2023-2024 BPOLS1330 1) La validité : Ø CaractérisRque d'un indicateur qui correspond bien au concept Ø ApRtude d'une technique ou d'un instrument à saisir de façon pure et enRère les manifestaRons concrètes correspondant à un concept. 2) Fiabilité : Ø CaractérisRque d'un indicateur qui est constant dans ce qu'il rapporte Ø ApRtude d'une technique ou d'un instrument à recueillir les mêmes données chaque fois que les mêmes phénomènes se manifestent Dans bien des cas, la liaérature est un ouRl praRque pour trouver des manières de mesurer certains concepts / indicateurs Il y a tout un pan de la science qui développe des échelles de mesure internaRonalement validées (psycho>sciences sociales) Lecture des quesRonnaires de grandes enquêtes (Comment les auteurs s’y sont pris pour mesurer tel concept?) -> Méthodes quant s’appuient sur processus bien élaboré, autour de la problémaRque De manière schémaRque, voici à quoi ressemble le processus de travail avec les méthodes quanRtaRves. Les techniques d’analyses ont un poids important dans le design de l’enquête car ce sont elles qui vont permeare un certain type de réponse quanRtaRve. Dès lors, elles jouent d’emblée un rôle important dans les buts poursuivis par la quesRon de recherche, la formalisaRon des quesRons en tant que telle (on ne peut pas uRliser n’importe quelle technique en foncRon des types de variables – voir infra) et finalement sur la producRon des résultats. Dans l’ensemble du processus méthodologique en analyse quanRtaRve, tout doit être prévu dès le début ou du moins dans la mesure du possible. De la quesRon de recherche aux quesRons réelles très précises qui vont être adressées aux sondés, de la populaRon que l’on va sonder et de la manière dont on va s’y prendre pour l’approcher aux techniques d’analyses. 14 Gogo, 2023-2024 BPOLS1330 Chapitre 3. Méthodes d’échantillonnage 02/10/2023 Partie 1. Concepts de base Le premier volet : c’est la problémaRque > quesRon de recherche > indices menant à des quesRons dans les quesRonnaires = c’est l’opéraRonnalisaRon de la quesRon de recherche pour lui apporter des réponses grâce aux quesRonnaires. Le second volet : c’est l’échanRllonnage où il faut définir une populaRon de référence (qui, quand ?) à parRr de laquelle on échanRllonne. - La populaRon est l’ensemble regroupant les éléments ou individus qui présentent les caractérisRques définies préalablement et sur lesquelles porte l’observaRon. - L’échanRllon est une parRe, c’est-à-dire un sous-ensemble, de la populaRon, dite populaRon- mère, sur laquelle porte l’observaRon concrète. Ø On opère sur un échanRllon car contacter l’ensemble d’une pop est difficile temporellement, en terme d’exhausRvité, de moyens et de logisRque. Ø Il faut qd mm prendre un assez grand échanRllonnage pour avoir une bonne représentaRvité des valeurs de l’ensemble de la pop > aaenRon à un mauvais échanRllonnage menant à un résultat non correct. - L’unité staRsRque est la plus peRte parRe de l’échanRllon sur laquelle porte l’observaRon ; il s’agit donc de l’élément de base le consRtuant. Ø En sc sociale, on prend souvent les individus mais ce n’est pas toujours le cas (groupes, parRs poliRques, écoles,… > niveau plus collecRf) Ø Dans les autres domaines que les sc sociales : géologie – cailloux ; biologique – cellules, animaux,… Un exemple : On veut mener une étude staRsRque sur le ressenR de la sRgmaRsaRon des personnes souffrant de handicap en Belgique. PopulaRon: toutes personnes ayant la naRonalité belge et porteuse d’un handicap mental ou physique. D’après des données de l’IWEPS de 2018, ceae populaRon est de 246.153 personnes. On ne va pas sonder autant de personnes! On va sélecRonner une parRe de ces personnes et on va tenter d’inférer les résultats obtenus sur base de l’échanRllon à l’ensemble de la populaRon. Plusieurs échanRllons de 100, 200, 500, 1000, 2000, 5000… personnes sont donc techniquement possibles. Dans certains cas, il est possible d’étudier l’ensemble d’une populaRon 15 Gogo, 2023-2024 BPOLS1330 o Quand la populaRon a une faible taille (ex. : les étudiants de l’USLB qui suivent le cours de MQ1 à Saint-Louis) o Quand la populaRon est facile à contacter (ensemble des adresses emails disponibles ou étudiants se situant sur le même lieu donc facile pour le déplacement) o Lors de recensement Dans le cas contraire : « échanRllonnage » ou « sondage » sur la « populaRon parente » > 2 grands manières d’échanRllonner o ÉchanRllons probabilistes : sur les probabilités, méthode à privilégier si on peut s’en servir o ÉchanRllons empiriques : tentent de se rapprocher le + possible des méthodes probabilistes Le choix de la méthode de l’échanRllonnage est capitale car c’est elle qui va garanRr une plus ou moins grande représentaRvité des caractérisRques de la populaRon étudiée. Partie 2. Les échantillons probabilistes Principe général: assurer à chaque unité staRsRque une probabilité de faire parRe de l’échanRllon. Pour cela, il faut uRliser le hasard = pas besoin de formaliser des critères spécifiques. C’est le meilleur ouRl pour avoir de la représentaRvité dans les personnes sondées. Ce hasard repose sur une probabilité de sélecRon, il faut donc avoir une manière de connaitre l’ensemble des ind pour savoir où les piocher => dans la praRque, il y a un besoin d’avoir une liste de la populaRon étudiée afin de sélecRonner les personnes à sonder. o Accès au registre naRonal accès au boˆn téléphonique accès au répertoire (d’une insRtuRon, entreprise…) accès à une liste d’adresse (physiques, mails,…) accès à une liste de passage (consultaRons, examen,…) En plus de ces listes, il faut des méthodes de contact pour arriver à être en lien avec ces personnes. 1. L’échantillon aléatoire simple Dès qu’on a une liste, on aaribue une probabilité à chaque unité staRsRque : défini par P = n/N où n = taille de l’échanRllon désiré et N = taille de la populaRon. Exemple : populaRon = 100 et l’échanRllon = 30 à P = 30/100 Après cela, il faut définir une méthode de sélecRon aléatoire : généralement à l’aide d’un ordinateur. Mais pas que (loterie, tombola,…). Exemple de sélec6on au hasard : PopulaRon = étudiants inscrits sur Moodle POLS1330 n=10 1. ImportaRon de la liste en Excel 2. GénéraRon d’un chiffre aléatoire grâce à la formule =ALEA() 3. Trier du plus peRt au plus grand 4. SélecRonner les 10 individus avec les chiffres les plus proches de 0 ou de 1 par exemple. 16 Gogo, 2023-2024 BPOLS1330 2. L‘échantillon aléatoire à tirage systématique C’est une autre manière de trier les ind => avoir une liste > sélecRonner un ind tous les [intervalles réguliers (ex 3)] > diviser la pop par la échanRllon souhaité. Le principe est similaire à celui de l’échanRllonnage aléatoire simple mais on va sélecRonner les unités staRsRques à intervalle régulier. L’intervalle (ou pas de Rrage) est défini par N/n SélecRon aléatoire du point de départ parmi les N/n premières unités Exemple: étudiants inscrits sur Moodle POLS1330 n=20 N=177 ; n = 20 ; N/n = 177 20 ~ 9. Point de départ pour les 9 premiers fixés en triant du plus peRt au plus grand la valeur obtenue par la foncRon =ALEA() On emploi une sélecRon aléatoire tous les intervalles réguliers pour éviter que ça soit toujours ex le premier sur 3 qui est choisi. 3. L’échantillon stratifié Si une populaRon est composée de plusieurs groupes (=strates) importants, la straRficaRon permet de garanRr la présence (à une ampleur prédéfinie) de ces strates dans le processus d’échanRllonnage. On procède à un échanRllonnage au sein de chacune de ces strates. Il se peut que dans la problémaRque, il y a une variable très importante. Il faut être proche de la réalité avec une méthode le garanRssant, pas comme le hasard. o Exemple des votes en Wallonie où avec Rrage simple, il y aurait la possibilité de n’avoir piocher aucun individu votant PTB, pourtant on sait que le parR est important > on fait une autre méthode plus représentaRve o Si en Belgique, Fl = 55% ; W = 35% ; Bxl = 10% -> il faut que dans notre échanRllon, il y ait plus de Fl que de W, respect de la réparRRon réelle de la populaRon. Dans une strate, un ind ne peut être que dans un seul groupe > il faut donc des catégories exhausRves et bien définies. De façon analogue, on peut considérer que réaliser un échanRllonnage par straRficaRon, revient à réaliser autant d’échanRllon aléatoire simple qu’il y a de strates => on fait des simple dans chaque catégorie de notre échanRllon (ex un simple dans les 55% de Fl et un simple pour les 10% de Bxl). La probabilité pour une unité staRsRque d’être sélecRonnée ne varie pas au sein de la strate. Il existe deux méthodes de straRficaRon: proporRonnée et non-proporRonnée. A. L’échanRllon straRfié proporRonné Comment foncRonne une strate ? Si une populaRon est composée de plusieurs sous-groupes idenRfiables (strates), alors on peut allouer des probabilités aux unités staRsRques de faire parRe de l’échanRllon qui varient en foncRon du poids que représente chaque strate dans la populaRon. 17 Gogo, 2023-2024 BPOLS1330 Le problème ici pourrait être : un problème du méRssage (gauche) ou (droite) où meare les ind qui sont en double bachelier > être sure qu’un ind ne soit pas présent dans deux strates différentes. GaranRr les proporRons Exemple : étudiants inscrits sur Moodle POLS1330 n=30 La probabilité p qu’une unité staRsRque soit sélecRonnée au sein de chaque strate est définie par p = Ns/N > où NS est la taille de la strate et N la taille de la populaRon. Exemple de la Belgique : pour un Fl, 55% de chance d’être sélecRonné parmi les Fl => 55/100 x 30/100 Pour les W, 35/100 x 30/100 (30 car c’est la proporRon de l’ens de la pop belge qui sera sélecRonné) B. L’échanRllon straRfié non-proporRonné Il existe des cas où il est préférable de ne pas uRliser de méthode proporRonnée, lorsque l’on veut observer une parRe de la pop extrêmement peRte. Contrairement à l’échanRllon straRfié proporRonné, ceae méthode d’échanRllonnage n’implique pas de respecter les proporRons des strates. Ainsi, certaines strates sont arRficiellement sur-représentées ou sous-représentées. Ce type d’échanRllonnage est parRculièrement indiqué lorsque la taille de la strate est très faible, permeaant ainsi d’obtenir un nombre d’individu suffisant au sein de la strate que pour mener des analyses. Exemple: PraRque du Sport chez les étudiants à l’UCLouvain (N=30.089) Si la catégorie « SporRfs de Haut niveau » est importante pour les besoins de l’étude, comment produire des staRsRques sur aussi peu d’observaRons? à Besoin d’ajuster les proporRons De manière arbitraire, il faut augmenter le nombre d’ind suffisamment pour avoir des stat qui Rennent la route > 15% de sporRfs de haut niveau dans l’étude pourtant ils ne sont pas aussi nombreux dans la réalité => ne pas oublier de bien jusRfier ces choix. 18 Gogo, 2023-2024 BPOLS1330 L’allocaRon non-proporRonnée peut se faire de manière arbitraire mais il existe des techniques plus avancées qui ne seront pas parcourues dans le cadre de ce cours. Avec 75 sporRfs de haut niveau, il est désormais possible de mener des staRsRques sur ce groupe. C. StraRficaRon à plusieurs niveaux La straRficaRon à plusieurs niveaux est possible, du moment que l’on est en possession des variables nécessaires pour affecter les probabilités de sélecRon. Les probabilités sont calculées à parRr des effecRfs croisés ou du produit des probabilités des différents niveaux de strates Belgique 30% de la pop reprise > Fl 55% des flamands repris > au sein même ces Fl, strates entre les femmes et les hommes. Bien noter qu’en Fl, il n’y a pas la même proporRon d’hommes et femmes que pour l’ens de la pop belge ou en W. Pouvoir avoir l’informaRon précise, lisRng complets et élaborés des populaRons pour avoir la bonne réparRRon partout. 4. L’échantillon aréolaire (par grappes) Strat >< grappes -> au lieu de sélecRonner des données staRsRques, on sélecRonne des données collecRves (des ménages, des écoles, entreprises,…). Il faut là aussi s’assurer aussi de ne pas sélecRonner les mêmes groupes. Ex les ménages où s’assurer qu’un ind ne fait pas parR de plusieurs ménages. - Sur la méthode de Rrage: similaire à l’échanRllonnage aléatoire simple - MAIS se base sur des ensembles d’unités staRsRques: Ménages, rues, quarRers, entreprises, écoles,… - On sonde ensuite l’ensemble des unités staRsRques présentes dans l’unité collecRve - Nécessite une liste exhausRve des unités collecRves - On fixe un nombre d’unités collecRves à sélecRonner - La taille d’échanRllon est la somme des unités staRsRques composant les unités collecRves sélecRonnées On ne garanRt pas la représentaRvité de toutes les catégories. Ceae méthode génère un problème de grande homogénéité de l’échanRllon En grappes : ! garanRr qd mm le plus possible une bonne représentaRvité. 19 Gogo, 2023-2024 BPOLS1330 En grappes, a quand même des avantages : aléatoire où on doit se déplacer beaucoup > mais ici on délimite des zones pour limiter le déplacement. SélecRonner d’idenRtés collecRvités + soit on sélecRonne ensemble, soit une parRe. Exemple : élèves d’une école secondaire > prendre une liste des classes et en sélecRonner au hasard (mainRen d’un échanRllonnage aléatoire mais avec des listes de données collecRves). Après sélecRon, quesRonnaire à l’ensemble de la grappe. A plusieurs degrés : Principe : sélecRonner des unités d’ensembles de plus en plus réduites, et au final sonder une parRe des unités staRsRques. Contrairement à l’échanRllonnage aréolaire simple, on ne sonde pas l’enRèreté de la grappe. UPS, USS, UTS… Unités primaires/ secondaires/ terRaires de sondage Intéressant quand pas accès au lisRng complet. On peut sonder aléatoirement des écoles quand leur liste est dispo > contact pour demander des listes plus précises (comme classes) > échanRllonnage de la classe puis contact avec Rtulaire pour soit sonder une parRe soit sonder enRèrement. // villes où on passe par les quarRers, passe par des listes des rues où on peut sonder des rues au hasard. Avantages : Qualité de l’inférence mieux garanRe (cf. lois de probabilités MQ2). La garanRe de reproduire la structure de la populaRon dans l’échanRllon est plus grande Lorsque l’échanRllon est de grande taille, l’échanRllon aléatoire simple est censé garanRr la représentaRvité des différentes strates. Lorsque l’échanRllon est de faible taille, cela n’est pas forcément le cas. L’échanRllonnage aréolaire facilite la collecte de données Comme l’on connait la distribuRon de la populaRon, on peut tenir compte des éventuels biais de l’échanRllonnage > Pop= 51% d’hommes, échanRllon= 41% d’hommes Désavantages : Nécessite des listes exhausRves de la populaRon (ou des unités collecRves) > Pas toujours accessibles, peut être couteux (accès au registre naRonal). Peut être lourd et fasRdieux Il faut un contact Possible de faire des méthodes hybrides : sélecRon straRfiés sur des unités collecRves (villes où on respect la proporRon) ou méthodes aréolaires où dernier niveau on foncRonne par straRficaRon. 20 Gogo, 2023-2024 BPOLS1330 05/10/2023 Tableau hypothéRco-déducRf (sorte de feuille de brouillon de notre recherche) Exemple des inégalités des chance dans la scolarité et de la dotaRon en capital culturel des parents. Se demander ce qu’est une inégalité scolaire, comment la définir ? Est-ce qu’ensemble des élèves apprennent de la même manière ? = acquis d’apprenRssage > peut se mesurer selon la réussite, les bonnes notes. Mais est-ce que l’évaluaRon est-elle seule composante pour mesurer l’apprenRssage ? La compréhension du cours pourrait être un autre indicateur. QuesRonnement de départ, connaissances > intuiRon > liaérature > quesRonnement > intuiRon > ,… = boucle + étayer sujet plus spécialisé à l’aide des théories sociologiques. Partie 3. Les échantillons empiriques - Principe général : Tenter, quand c’est possible, de reconsRtuer le hasard sans disposer d’un fichier sur la populaRon - La probabilité de sélecRon des unités staRsRques n’est donc pas connue. - Moins précis que les échanRllonnages probabilistes - Une logique : chercher la diversité maximale 1. L’échantillonnage quotas On idenRfie les caractérisRques importantes de la populaRon On esRme le nombre de personnes à sonder pour chacune de ces caractérisRques On arrête de sonder les personnes remplissant les critères une fois le nombre (quota) aaeint. Exemple: On cherche à former un échanRllon de 1000 personnes de la Belgique et un critère important serait la région de provenance. On va du coup fixé un quota maximal au nombre de flamands, wallons et bruxellois qui peuvent parRciper à l’enquête. On aurait ainsi par exemple des quotas fixés à 320 wallons, 575 flamands et 105 bruxellois. -> Moins fiable que l’échanRllon probabiliste mais garde le contrôle sur des proporRons esRmées de caractérisRques importantes de la définiRon de la populaRon. -> Différences avec échanRllon straRfié non-proporRonné : les caractérisRques de populaRon ne sont pas forcément issues d’une seule et même variable; pas de sélecRon complètement aléatoire des répondants. 09/10/2023 2. L‘échantillonnage accidentel (de convenance) Principe: l’échanRllon est consRtué à parRr d’individus de la populaRon prêts à parRciper et à portée de main. Le but est de générer du hasard dans les rencontres > toutes les X personnes croisées ; tracés dans des villes à parRr de points de départ aléatoire ;… Ø Généralement, ceae méthode est plus indiquée pour les enquêtes en face-à-face, impliquant un déplacement et un invesRssement plus important de l’enquêteur, mais possibilité de le réaliser via internet/téléphone + Surtout uRlisé dans des milieux urbains où c’est compliqué d’avoir des registres de populaRon. 21 Gogo, 2023-2024 BPOLS1330 Exemples: Enquête sur les étudiants: aaendre à la sorRe des auditoires et sonder ou Enquête sur la consommaRon d’alcool: sonder des personnes au hasard dans les rues peuplées de bar/discothèque 3. L’échantillonnage en boule de neige Principe: PassaRon de départ à quelques individus avec diffusion du quesRonnaire par renseignement d’individus supplémentaires par les premiers répondants et ainsi de suite. Ø ÉchanRllon boule de neige = vous diffuser le quesRonnaire à une ou plusieurs personnes et leur demander de renseigner d’autres individus à contacter selon éventuellement certains critères. Ø ÉchanRllonnage en boule de neige et de convenance sont praRques pour sonder des populaRons difficiles à aaeindre. Exemple: Je veux mener une enquête sur les habitudes de vie des végans à Bxl. Ou puis-je trouver des végans? Difficile: il n’y a pas de listes prédéfinies… L’effet boule de neige pourrait foncRonner, à parRr même de la rue, de contact personnels, voire en infiltrant des groupes sur internet par exemple… 4. L’échantillonnage volontaire Principe: Laisser les répondants (avec ou sans invitaRon) la liberté de répondre au quesRonnaire > échanRllonnage le moins rigoureux et le plus biaisé Diffuser un quesRonnaire par un réseau social ; Laisser des quesRonnaires sur une table à la bibliothèque; enquêtes de SaRsfacRon,… Sondage Metro (cf. Éléments Épistémologiques) Les échanRllons empiriques Avantages : - Facilité (et coût) de mise en œuvre - Pas de nécessité de listes exhausRves et d’un fichier de Rrage - S’adapte au difficultés d’accès à la populaRon tout en tentant dans certains cas de reconsRtuer le hasard Désavantages : - ConsRtuRon d’un échanRllon bien moins représentaRf de la populaRon - Risques de biais plus importants o Quotas: biais de sélecRon o Convenance: problème des incitants et intérêts des personnes à parRciper o Boule de Neige : Forte homogénéité sociale o Volontaire : absence presque totale de contrôle sur l’échanRllonnage 22 Gogo, 2023-2024 BPOLS1330 Partie 4. Comparatifs des méthodes d’échantillonnage Représenta6vité Versus Facilité de cons6tu6on de l’échan6llon ReprésentaRvité Portée de l’inférence Rigueur scienRfique Facilité Moindre coût AdaptaRon aux réalités Doit-on forcément choisir? Oui mais possibilité de combiner les techniques! Les échanRllons probabilistes ont la plus grande garanRe de représentaRvité mais également des contraintes plus grandes (car nécessitant l’énuméraRon exhausRve des unités staRsRques et notamment d’une manière de sonder ces unités!). A l’inverse, les échanRllons empiriques sont consRtués beaucoup plus facilement mais garanRssent une représentaRvité moindre. Les méthodes aléatoires simples et straRfiées ont une probabilité plus grande représentaRvité de la populaRon car prennent un grand nombre de personnes échanRllonnées = loi des grands nombres. Les aréolaires ont moins de représentaRvité car on sélecRonne des unités collecRves Partie 5. L’échantillonnage mixte Principe: Même principe que l’échanRllon aréolaires à degrés. Décomposer l’échanRllonnage en phases hiérarchisées. A chaque étape, une méthode d’échanRllonnage est appliquer. Partie 6. Taille et précision d’un échantillon 1. Marge d’erreur d’un échantillon La marge d'erreur, c'est la précision du résultat obtenu étant donné le seuil de confiance que l'on est prêt à accepter Plus le nombre sera grand, plus le résultat sera précis et la marge d’erreur peRte :car quand l’on prend un échanRllon de la populaRon > les stat vont varier et les chiffres peuvent se rapprocher de la moyenne totale mais ce ne sera pas exactement le même chiffre que si échanRllon de l’ensemble de la populaRon car on prend seulement une parRe => comprendre quelle sera la marge d’erreur. 23 Gogo, 2023-2024 BPOLS1330 Comment calculer la marge d’erreur ? 1a) Fixer un seuil de confiance α C’est la probabilité que l’échanRllon consRtué ne représente pas correctement la populaRon étudiée. Le seuil minimal usuel est de 95% mais peut être plus élevé. Cela signifie que si l’on échanRllonne plusieurs fois une populaRon, en moyenne 95 échanRllons sur 100 seront représentaRfs de la populaRon. 1b) Trouver la valeur Z du seuil de confiance α désiré Les valeurs Z – dites standardisées ou normalisées, seront vues en MQ2 (pas savoir mtn) Calcul de la marge d’erreur Où Zα est le score Z du seuil de confiance α P est la probabilité que le comportement observé soit présent dans la populaRon. Si p est inconnu, elle est alors fixée à 0.5 (score maximal) Et n la taille de l’échanRllon Exemple: On réalise une étude sur les personnes en recherche d’emploi. A un seuil de confiance de 95% (Z=1,96), et une probabilité de 12% qu’une personne acRve soit en recherche d’emploi pour un échanRllon de 350 personnes. Si les résultats de l’étude affirment que 86% des chômeurs recherchent de l’emploi acRvement. Cela signifie que la véritable staRsRque se situerait entre 82,6% et 89,4%. Soit 86% ± 3,4% -> Plus l’échanRllon est grand, moins la marge d’erreur est théoriquement élevée > Plus on se rapproche de la taille de la pop, plus le résultat sera précis -> Plus le seuil de confiance désiré est élevé, plus la marge d’erreur est élevée! 2. Tailles d’échantillon Possible de calculer la taille de la pop sur base de la marge d’erreur Le calcul des tailles d’échanRllons désirées, dépend de la marge d’erreur désirée: 24 Gogo, 2023-2024 BPOLS1330 Pour un seuil de confiance de 95%, d’une probabilité maximale (0,5) et d’une marge d’erreur maximale de 5%, la taille d’échanRllon théorique devrait être de: La garanRe de représentaRvité et/ou la précision des résultats à un coût!! Ce calcul ne Rent compte que de la taille théorique. Il faut également tenir compte de la validité, l’éligibilité et du taux de réponse des unités staRsRques. Validité: les listes exhausRves ne sont pas toujours à jour et une proporRon des unités staRsRques est habituellement non valide. Numéro de téléphone non-aaribué, personne à déménager, adresse email non valide… Éligibilité: Une part des personnes ne peut parRciper à l’enquête: Âge de parRcipaRon non aaeint, personne ne parle pas la langue de l’enquête, personne aaeinte d’handicap sensoriel/mental,… Taux de réponse: le répondant ne veut pas répondre, le répondant ne répond pas, le répondant ne complète pas le quesRonnaire dans son intégralité… S’il est difficile d’esRmer l’ensemble de ces proporRons, il faut pouvoir en tenir compte car cela va affecter grandement la qualité de l’échanRllon en terme de représentaRvité et de précision. Comment en tenir compte? En mulRpliant l’échanRllon désiré de départ par une esRmaRon des différents taux. 1 1 1 𝑛!"#$% = 𝑛,é.$*) ∗ ∗ ∗ 𝑣𝑎𝑙𝑖𝑑𝑖𝑡é é𝑙𝑖𝑔𝑖𝑏𝑖𝑙𝑖𝑡é 𝑡𝑎𝑢𝑥 𝑑𝑒 𝑟é𝑝𝑜𝑛𝑠𝑒 On veut consRtuer un échanRllon de 400 individus, en esRmant un taux de validité de 95%, un taux d’éligibilité de 98% et un taux de réponse de 40% / / / è 𝑛!"#$% = 400 0,23 0,24 0,5 = 1074 è Pour obtenir 400 individus, on devrait se préparer à sonder 1074 individus car taux de réponse peuvent être bas surtout en ligne. 25 Gogo, 2023-2024 BPOLS1330 EsRmaRon des différents taux? Validité: Est-ce que ma liste est à jour et sans erreur? Éligibilité: Est-ce que l’échanRllonnage prend en compte l’âge (quesRon légale de l’enquête) du répondant, la langue, la capacité à répondre,… ? è Un taux par défaut serait de 95% Mais peut varier en foncRon de la spécificité de la populaRon ciblée. Réponse: varie en foncRon des disposiRfs d’enquête (en ligne/en face-à-face/par téléphone) è Complétude: dépend de la sRmulaRon/de l’intérêt/de la longueur… du quesRonnaire Dans la réalité, peu d’échanRllons sont non-biaisés. Il existe cependant des techniques de redressement de l’échanRllon (postérieures à l’échanRllonnage) comme la pondéraRon… 26 Gogo, 2023-2024 BPOLS1330 Chapitre 4. Elaboration du questionnaire Etape suivante : sur base des indicateurs, formuler des quesRons précises et les meare dans un quesRonnaire que l’on administrera à notre échanRllonnage. Le quesRonnaire est la parRe la plus étroite d’un entonnoir – et peut faire l’objet d’une certaine dramaRsaRon. Quel processus pour construire un quesRonnaire? Se meare autour d’une table et évoquer des quesRons dans tous les sens ? Connecter chaque quesRon aux indices, en suivant le processus entamé en amont? Une règle d’or : on ne réfléchit jamais trop! De la quesRon de recherche aux quesRons du quesRonnaire… et retour. Chaque quesRon doit être connectée à un indicateur Chaque quesRon doit faire sens. Avoir le modèle d’analyse en vue. Que veut-on tester? Quelles staRsRques voulons-nous produire? Une fois l’enquête lancée, les modificaRons sont quasi-impossibles > les erreurs sont irréparables On ne fait rien au hasard! Critères de construcRon d’un bon quesRonnaire : La parcimonie, La structure, La clarté (univocité) A. La parcimonie On limite le quesRonnaire sur les propos de l’enquête, ne pas l’étendre au-delà de ce qui ne figure pas dans notre problémaRque, dans nos hypothèses,… - A-t-on posé toutes les quesRons nécessaires? N’a-t-on rien oublié? - Et n’a-t-on posé QUE les quesRons nécessaires? ! La longueur du quesRonnaire est la première cause d’abandon de la part des répondants ! Pensez aux techniques de data management (cf. GesRon des données) que vous maîtrisez afin d’alléger le quesRonnaire. Exemple: si vous demandez la date de naissance au répondant, avez-vous besoin de leur demander leur âge? 27 Gogo, 2023-2024 BPOLS1330 B. La structure Structurer de façon compréhensible et réfléchir à la première quesRon tout d’abord > meare directement les répondants dans le bain sans commencer par une quesRon compliquée. L’anonymat est important, par convenRon on ne débute pas l’enquête par des quesRons tels que le sexe de la personne, plutôt pour la fin (quesRons signaléRques). Meare des quesRons d’idenRficaRons au début peut faire que les personnes ne se senRront pas en confiance. Eviter d’avoir des taux de réponses qui chute, un désintéressement, des réponses à la va vite = résultats biaisés. Des quesRons : - L’importance de la 1e quesRon - L’importance de la difficulté des quesRons - L’importance de la sensibilité des quesRons - L’importance de l’intérêt des quesRons - L’importance de la monotonie des quesRons - (risque de réponses automaRques) ! Le désintérêt est la principale cause de réponses de mauvaise qualité (réponses « top of the head ») Plus un individu est intéressé, plus a de chance d’aller jusqu’au bout (auto-sélecRon DANS quesRonnaire) Couper dans monotonie Du quesRonnaire : - S’assurer que le répondant soit bien concerné par la quesRon qui lui est posée - Penser éventuellement à une architecture du quesRonnaire en Module. Intéressant s’il y a beaucoup de quesRons. - URliser éventuellement des filtres condiRonnels (automaRsés avec des logiciels) : pour que selon les réponses des personnes, certaines quesRons n’apparaissent pas en foncRon Ex. « Si vous avez répondu oui, passez à la quesRon X. Si vous avez répondu non, passez à la quesRon Y » Partie 1. Processus de création C. La clarté - Le quesRonnaire requiert un « contrat de communicaRon » : savoir comment répondre - Permeare une compréhension immédiate : éviter des noRons ambigus ou complexes, quesRons simples pour les répondants - Développer une mise en page appropriée en foncRon du mode de passaRon uRlisé. 28 Gogo, 2023-2024 BPOLS1330 Développer une mise en page appropriée en foncRon du mode de passaRon uRlisé. Format papier Nécessaire d’avoir une introducRon pour expliquer comment répondre aux quesRonnaires Pourquoi la passaRon par format papier est plus dense? è Nombre de page à imprimer. (coût de la recherche) è Donner un quesRonnaire de 20-30 pages (voire beaucoup plus) peut faire peur à la personne sondée. Essayer de compacter la taille En ligne En ligne, uRlisaRon de la barre de progression pour que les répondants savent se situer dans le quesRonnaire. IntroducRon où on explique le temps que prend ce quesRonnaire, elle peut être préparer et se meare dans des condiRons idéales. Partie 2. Questions et variables 1. Les questions ouvertes Répondre ce qu’on a vit de façon libre, réponses peuvent être très détaillées si les personnes font l’effort « Quelle est la principale difficulté que vous rencontrez au quoRdien dans votre méRer d’enseignant? » …………………………………………………………………………………………………………………………………………………………… Avantages : - Comporte plus d’info, plus nuancée - S’adapte plus facilement au répondant 29 Gogo, 2023-2024 BPOLS1330 Désavantages : - Difficile à encoder et standardiser (c’est toutefois possible) > difficile à analyser et en faire des graphiques, cela requiert soit un traitement d’analyse qualitaRve, soit un traitement textuel staRsRque. - Cher à traiter 2. Les questions fermées Besoin d’un panel de réponses fournies. Besoin que l’enquêteur connaisse bien sa problémaRque : répondant doit être devant un quesRonnaire non ambigu et bien réalisé. Avantage : - Facilite le traitement de l’informaRon Désavantages : - Nécessite une connaissance de la problémaRque - Risque d’enfermer le répondant dans des choix qui ne sont pas les siens - Nécessité d’avoir des catégories mutuellement exclusives ET exhaus/ves - Risque de désirabilité sociale (importance du prétest) Le challenge : « prévoir les mondes possibles » Quand la clôture des mondes possibles est (ou semble…) facile : Cela peut amener à de la frustraRon suite à de l’ambiguïté d’une quesRon même si on imaginait pas qu’elle soit aussi ambigu. Quand la clôture des mondes possibles est plus compliquée: Problème de la catégorie « autre » qui va vous embêter très fort pour l’analyse > est-ce nécessaire de laisser une réponse libre alors que les réponses couvrent déjà une grosse parRe de la populaRon ? 30 Gogo, 2023-2024 BPOLS1330 Un cas (a priori) plus facile : les ques6ons d’opinion (avec échelle d’évalua6on) Il manque la prise en compte de réponse sans avis, de je ne sais pas, de je ne suis pas concerné… Ceae échelle va d’une réponse négaRve à une réponse posiRve selon une quesRon de fréquence. Que faire si le répondant ne sait pas quoi répondre ou s’il ne se sent pas concerné par la quesRon ? Au lieu de rajouter une catégorie de réponse, ne pas rendre ceae quesRon obligatoire > ferait apparaitre une autre phénomène où d’autre personnes concernées passeraient qd mm la quesRon par ennui. ! Ici il y a 4 modalités de réponses = force une orientaRon du choix. Besoin d’une catégorie neutre pour ceux ne sachant pas pour éviter réponses biaisées + combien de modalités meare ? (convenRon entre 3 et 7) Une mulRtude de forme possibles: À réponse unique À réponses mulRples À classement … 3. Relations entre les questions et les variables Chaque quesRon devient une variable dans nos bases de données > série d’opéraRons qui sera possible Chaque réponse possible devient une modalité Chaque type de quesRon (fermée) donnera lieu à un type de variable en foncRon de l’échelle de mesure uRlisée a. Les variables nominales b. Les variables ordinales c. Les variables numériques La possibilité plus ou moins restreinte de travailler sur le statut des variables Les variables nominales : -> catégories mutuellement exclusives et collecRvement exhausRves -> Aucun ordre possible (a≠b≠c) Exemple : le genre, le code postal, les naRonalités 31 Gogo, 2023-2024 BPOLS1330 A priori: pas de calcul possible sur les variables nominales, pas de moyenne /!\ au cas spécifique des variables dichotomiques (2 possibilités de réponses) Possibilité de calcul possible sur ces quesRons Préférable de coder les modalités 0 et 1 pour des raisons de facilité d’interprétaRon (trop régulièrement les enquêtes codent en 1 et 2) Pas de calcul possible ou en tout cas, celui-ci ne fait aucun sens. Si je pose la quesRon suivante: « quelle est votre couleur préférée? » possibilité de réponse: jaune (1), bleu(2), orange (3), vert (4) , … Que signifiera la moyenne de ceae variable? RIEN! /!\ Cependant il est possible de faire des calculs à parRr de variable dichotomique. Ex: Êtes-vous un homme (0) ou une femme (1)? Si la moyenne est de 0,55 è Je sais qu’il y a 55% de femmes dans mon échanRllon. Est-ce que votre couleur préférée est le jaune? Oui(1), non(0) è Moyenne de 0,22, je sais que 22% des répondants ont pour couleur préférée le jaune. Les variables ordinales: -> catégories mutuellement exclusives et collecRvement exhausRves -> Catégories ordonnées selon un ordre logique (a Catégories ordonnées selon un ordre (a Cas plus complexe… Oblige à se quesRonner sur ce que l’on veut faire et ce que l’on sait faire… Grosso modo il y a deux types de soluRons : Le Wide et le Long format. o Wide = centré sur le sujet o Long = focus sur la dimension temporelle 1. Paramétrer les variables Chaque variable nécessite un type d’encodage uniforme permeaant son uRlisaRon. Le type de variable indique au logiciel de traitement la manière dont il doit lire l’informaRon contenue dans une variable. Ceci est très important car cela définit les possibilités de traitements ultérieurs. Différents types de variables : Chaînes de caractère Nombres enRers 40 Gogo, 2023-2024 BPOLS1330 Dates Nombre enRers précédés d’un $ ou suivi d’un % … Chaque variable est codée et libellée. Le code de variable est un nom généralement court, dépourvu de caractères spéciaux, permeaant une uRlisaRon efficace de la BDD. Le libellé de variable est un nom détaillant l’informaRon contenue par la variable, uRlisé lors de la producRon de rapports. Chaque variable peut être formatée. Le format permet de présenter les données stockées sous une forme différente. Il s’agit en somme d’une table de référence liant les valeurs des données brutes encodées et leurs traducRons désirées. Formaaer des variables nominales/ordinales : Chaque modalité reçoit son code d’accès logique à son libellé. Exemple : sexe masculin (code 1) sexe féminin (code2) Formaaer des variables numériques : Définir l’unité de mesure (dans le libellé de variable), le nombre de décimales désirées, … Formaaer des quesRons ouvertes : On ne formate généralement pas les quesRons ouvertes de type « commentaire ». Si la quesRon est importante, il faut alors passer par un lourd travail d’analyse et de catégorisaRon pour transformer la variable de texte en variable nominale/ordinale. L’uRlisaRon des formats permet en outre d’encoder les données manquantes et les non réponses (« Je ne sais pas », « non répondu », « ne s’applique pas », « ne veux pas répondre » …). Règle générale : - URlisaRon de valeurs chiffrées élevées ou négaRves (éloignées de l’étendue de l’échelle de la variable) Exemple : 97 = « Je ne sais pas », 98 = « ne s’applique pas », 99 = « Je ne veux pas répondre » … - Dans le cas de variables numériques ! Chiffre ne doit pas être confondu avec des données probables ! - Exemple : « quel est votre rémunéraRon actuelle »? è « Je ne sais pas » ? Ø99 ? 999 ? 99999999999999 ? -1 ? 2. Documenter les variables, un outil : le codebook Le code book est un document centralisant l’ensemble des traducRons entre la base de données brutes et les données libellées, entre les codes des variables et leurs libellés. Il s’agit donc du document détaillant l’ensemble des informaRons comprises dans la base de données. Vous pouvez uRliser un traitement de texte ou un tableur pour créer ces codebook. Dans certains logiciels de traitements staRsRques, des procédures existent pour produire le code-book. Cela 41 Gogo, 2023-2024 BPOLS1330 n’empêchera pas que le travail intellectuel devra être effectuer en amont et encoder d’une manière ou d’une autre ! Les informaRons requissent ad-minima dans un code-book : - Code et libellé de la variable - Codes et libellés des modalités de la variable Les informaRons supplémentaires souhaitables : - Type de variable : nominale, ordinale, échelle - Format d’encodage : texte - ExplicaRons qualitaRves supplémentaires sur la variable Partie 3. Introduction à Excel Un logiciel pour : réaliser le codebook, encoder des données (dans des « cellules »), réaliser des opéraRons (« commandes ») de base (addiRon, moyenne,) OrganisaRon cartésienne : en colonne, en ligne, en cellule, en Feuilles -> Chaque cellule a donc une coordonnée unique! Partie 4. Introduction à SPSS => SPSS pour StaRsRcal package for the social sciences Un logiciel uRle pour… Gérer des bases de données importantes Documenter facilement des variables Travailler sur les variables Réaliser des opéraRons staRsRques simples et complexes Produire des tableaux, graphiques, … Conçu spécifiquement pour le traitement staRsRques ! Excel = plus varié, moins spécialisé + possibilité d’importer les données depuis Excel. OrganisaRon du logiciel en trois types de fenêtres : è L’ensemble des données parRRonnées en deux « vues » (choix des vues en bas à gauche) o La vue des données : affiche la base de données o La vue des variables : affiche les informaRons sur les variables è La fenêtre des résultats : Toute commande analyRque affichera le résultat dans ceae fenêtre è Les fichiers de syntaxe o Permet la programmaRon des opéraRons réalisées o Possibilité de générer le code (pas besoin de connaissance du code) 42 Gogo, 2023-2024 BPOLS1330 Le découpage en deux vues est parRculièrement praRque pour la documentaRon des variables et avoir en permanence une traducRon entre des valeurs et des libellés, ce qui n’était pas possible en Excel. Possibilité de documenter les variables sur : - Le nom de variable Le type de variable - Le libellé de variable - Les libellés des modalités - Les données manquantes Possibilités : - D’éditer les données manuellement tout comme dans Excel dans la vue des données - De transformer les données au moyen de méthodes informaRques - D’exclure certaines données, de sélecRonner des sous-échanRllons, de ne sélecRonner qu’une parRe des variables Par contre absence de structure libre comme en Excel Importer/exporter des données depuis Excel. Enregistrement des fichiers : En spss : extension «.sav » pour les fichiers de données ; «.sps » pour les fichiers de syntaxe En Excel : extension «.xls » ou «.xlsx » Si Excel est un ouRl très flexible et très uRlisé dans le Monde, il est moins spécialisé dans le traitement staRsRque des données. Lorsque vous analysez des données quanRtaRves, s’il est possible de réaliser ces opéraRons avec Excel, il est conseillé d’uRliser des logiciels de traitements staRsRques. Ces logiciels savent généralement mieux gérer des opéraRons lourdes menées sur de grandes quanRtés de données ; Ont plus de foncRons prédéfinies permeaant l’analyse staRsRque; permeaent une bonne interface entre les données brutes et les données formaaées; séparent les résultats des données. C’est pourquoi, nous uRliserons SPSS (ou PSPP) pour la gesRon des données dans le cadre de ce cours. Chapitre 6. Gestion des données 23/10/2023 Formater, transformer, créer des données avec des techniques informaRsées. Partie 1. Le data-management, qu’est-ce ? Pas de la staRsRque en soi, processus d’(et de ré) organisaRon de l’informaRon. Trois grands ensembles de travail sur les variables Organiser les renseignements sur les données (paramétrer les variables, libeller les données,) 43 Gogo, 2023-2024 BPOLS1330 Réorganiser l’informaRon au sein de nouvelles variables ou dans les variables existantes Traitement des données : fusion/update de base de données, sélecRon d’un sous- échanRllon, scission de Tout se fait via des commandes Avec SPSS/PSPP, deux manières de faire : Soit via l’interface « Buaon-click » (Avantage : facilité d’uRlisaRon) Menu « Transformer » pour le traitement, la créaRon des variables Menu « Données » pour le renseignement et le traitement des données Soit via un fichier de syntaxe Programmer soi-même (nécessité de connaître le langage de programmaRon) URlisaRon des boutons (coller / paste en anglais) Les avantages du code de syntaxe Permet de sauvegarder les commandes réalisées : avoir une trace de ce qu’on a fait pour soi- même et pour les autres RéexécuRons permet de corriger les erreurs step by step Gain de temps Permet la traçabilité des opéraRons effectuées VérificaRon de la cuisine Idéal pour le travail en équipe ! Si vous ne devez pas apprendre à programmer, lire et comprendre du code n’est pas forcément difficile ! Apprendre à coder : une compétence recherchée sur le marché de l’emploi! Le data management dans le processus de traitement des données Dépend des objecRfs de recherche affichés. Peut prendre 5 minutes comme un an ! Pour un projet ambiReux, vous pouvez considérer ce genre de schéma : Data Management ~50% ; Analyse staRsRque ~30% ; ReporRng ~20% Partie 2. Documenter les variables Paramètres ajustables en SPSS Plus on uRlise des caractères, plus uRlise de la mémoire dans la base de données 44 Gogo, 2023-2024 BPOLS1330 On peut ici sélecRonner les valeurs manquantes qui seront ignorer lors des calculs Terminer par exécuRon / syntaxe : générer le code informaRque qui a été mobilisé dans l’opéraRon Code syntaxe : applicaRon de libellées à une variable Partie 3. Transformer/créer des variables 4 opéraRons principales (parmi d’autres) But est de créer de l’informaRon qui n’existe pas encore ou de l’informaRon mal encodée 1. Compute Variables Principe : créer des nouvelles variables sur base d’une calculaRon Usage : affecter une formule à une nouvelle variable en uRlisant des données existantes ou des constantes, des opérateurs arithméRques, foncRons… Quel sens ? : o Compute = « calculer », il faut que cela soit calculable ! (Var. numériques). L’opéraRon est valable du même qu’elle est formalisable sous la forme d’une équaRon o Nécessaires d’avoir les informaRons de base 45 Gogo, 2023-2024 BPOLS1330 o L’avantage : calculer pour tous les individus Quelques exemples : En click-Buaon : Important : première chose à faire est de donner un nom à ceae nouvelle variable logiciel doit savoir dans quelle variable il va devoir stocker l’info et éviter d’effacer les données d’origine Si on met nouvelle donnée dans une variable déjà existante >

Use Quizgecko on...
Browser
Browser