Méthodes d'échantillonnage - MQ1

Summary

Ce document présente un aperçu des méthodes d'échantillonnage en statistiques. Il aborde des concepts fondamentaux comme la population, l'échantillon et l'unité statistique, et explore différents types d'échantillonnage, comme l'échantillon aléatoire simple et à tirage systématique. L'accent est mis sur les méthodes d'échantillonnage probabilistes et leurs applications.

Full Transcript

3. Méthodes d’échantillonnage Quelles techniques pour constituer un échantillon? 3.1 Concepts de base Population, échantillon et unité statistique La population est l’ensemble regroupant les éléments ou individus qui présentent les caractéristiques définies préalablement et sur les...

3. Méthodes d’échantillonnage Quelles techniques pour constituer un échantillon? 3.1 Concepts de base Population, échantillon et unité statistique La population est l’ensemble regroupant les éléments ou individus qui présentent les caractéristiques définies préalablement et sur lesquelles porte l’observation. L’échantillon est une partie, c’est-à-dire un sous-ensemble, de la population, dite population-mère, sur laquelle porte l’observation concrète. L’unité statistique est la plus petite partie de l’échantillon sur laquelle porte l’observation ; il s’agit donc de l’élément de base le constituant. Pas forcément un individu!! a) Macro-données : Pays, entreprises, ménages,… b) Biologie: cellules, arbres, animaux c) Géologie: cailloux d) Physique : planètes, étoiles … 3.1 Concepts de base Population Unité statistique Échantillons probables 3.1 Concepts de base Un exemple: On veut mener une étude statistique sur le ressenti de la stigmatisation des personnes souffrant de handicap en Belgique. Population: toutes personnes ayant la nationalité belge et porteuse d’un handicap mental ou physique. D’après des données de l’IWEPS de 2018, cette population est de 246.153 personnes. On ne va pas sonder autant de personnes! On va sélectionner une partie de ces personnes et on va tenter d’inférer les résultats obtenus sur base de l’échantillon à l’ensemble de la population. Plusieurs échantillons de 100, 200, 500, 1000, 2000, 5000… personnes sont donc techniquement possibles. 3.1 Concepts de base Population, échantillon et unité statistique Il est parfois possible d’étudier la population Quand la population a une faible taille (ex. : les étudiants de l’USLB qui suivent le cours de MQ1 à Saint-Louis) Quand la population est facile à contacter (ensemble des adresses emails disponibles) Lors de recensement Dans le cas contraire : « échantillonnage » ou « sondage » sur la « population parente » Échantillons probabilistes Échantillons empiriques Le choix de la méthode de l’échantillonnage est capitale car c’est elle qui va garantir une plus ou moins grande représentativité des caractéristiques de la population étudiée. Deux grandes méthodes existent: probabiliste et empirique. 3.2 Les échantillons probabilistes Principe général: assurer à chaque unité statistique une probabilité de faire partie de l’échantillon. Pour ce faire, dans la pratique, il y a un besoin d’avoir une liste de la population étudiée afin de sélectionner les personnes à sonder. exemples: accès au registre national accès au bottin téléphonique accès au répertoire (d’une institution, entreprise…) accès à une liste d’adresse (physiques, mails,…) accès à une liste de passage (consultations, examen,…) 3.2 Les échantillons probabilistes 3.2.1 L’échantillon aléatoire simple La probabilité p qu’une unité statistique soit sélectionnée est définie par 𝑛 𝑝=𝑁 où n est la taille de l’échantillon désiré et N est la taille de la population Définir une méthode de sélection aléatoire Généralement à l’aide d’un ordinateur Mais pas que (loterie, tombola,…) 3.2 Les échantillons probabilistes =ALEA() 3.2.1 L’échantillon aléatoire simple: exemple pratique avec Excel Population = étudiants inscrits sur Moodle POLS1330 n=10 1. Importation de la liste en Excel 2. Génération d’un chiffre aléatoire grâce à la formule =ALEA() 3. Trier du plus petit au plus grand 4. Sélectionner les 10 individus avec les chiffres les plus proches de 0 ou de 1 par exemple. 3.2 Les échantillons probabilistes Pour les plus curieux concernant la fonction =ALEA() dans Excel, la valeur générée changera automatiquement à chaque manipulation de l'Excel. Il faut dès lors figer les valeurs en sélectionnant l’ensemble des valeurs générées et en utilisant la fonction de collage des « valeurs exactes ». Ensuite, il vous suffit de trier votre fichier. 3.2 Les échantillons probabilistes 3.2.2 L’échantillon aléatoire à tirage systématique Le principe est similaire à celui de l’échantillonnage aléatoire simple mais on va sélectionner les unités statistiques à intervalle régulier 𝑁 L’intervalle (ou pas de tirage) est défini par 𝑛 𝑁 Sélection aléatoire du point de départ parmi les 𝑛 premières unités Exemple: étudiants inscrits sur Moodle POLS1330 n=20 𝑁 177 N=177 ; n = 20 ; 𝑛 = 20 ~9 Point de départ pour les 9 premiers fixés en triant du plus petit au plus grand la valeur obtenue par la fonction =ALEA() 3.2 Les échantillons probabilistes 3.2.2 L’échantillon aléatoire à tirage systématique 1 = unité sélectionnée / 0 = unité non sélectionnée Pour les plus curieux, voici une formule qui permet de créer un pas de tirage en Excel : =SI(MOD(LIGNE()-2;9)=0;1;0) La fonction si renvoie une valeur en fonction du respect ou non d’une condition. La condition est la première information que vous devez rentrer dans la formule. Ici, la condition est Mod(ligne()-2;9)=0. La fonction Mod renvoie le fruit d’une division et nécessite de renseigner une valeur et un diviseur. La valeur ici est ligne()-2, soit le numéro de ligne de l’observation – 2 (numéro de la première ligne), et le diviseur: 9. Ainsi, si la division est parfaite et renvoie donc 9/9=0, Excel affichera une valeur de 1. Dans le cas contraire une valeur de 0. 3.2 Les échantillons probabilistes 3.2.3 L’échantillon stratifié Si une population est composée de plusieurs groupes(strates) importants, la stratification permet de garantir la présence (à une ampleur prédéfinie) de ces strates dans le processus d’échantillonnage. On procède à un échantillonnage au sein de chacune de ces strates. De façon analogue, on peut considérer que réaliser un échantillonnage par stratification, revient à réaliser autant d’échantillon aléatoire simple qu’il y a de strates. La probabilité pour une unité statistique d’être sélectionnée ne varie pas au sein de la strate. Les strates doivent être définies de telle façon à ce que chaque unité statitistique ne puisse appartenir qu’à une seule strate. Il existe deux méthodes de stratification: proportionnée et non-proportionnée. 3.2 Les échantillons probabilistes 3.2.3.1 L’échantillon stratifié proportionné Si une population est composée de plusieurs sous-groupes identifiables (strates), alors on peut allouer des probabilités aux unités statistiques de faire partie de l’échantillon qui varient en fonction du poids que représente chaque strate dans la population. 3.2 Les échantillons probabilistes 3.2.3.1 L’échantillon stratifié proportionné Exemple: étudiants inscrits sur Moodle POLS1330 n=30 La probabilité p qu’une unité statistique soit sélectionnée au sein de chaque strate est définie par 𝑁𝑆 𝑝= 𝑁 Filières nS p Échantillon Où NS est la taille de la strate COMU 54 30,5% 9 Et N la taille de la population SOCIO 46 26,0% 8 SC-PO 66 37,3% 11 Autres 11 6,2% 2 Total 177 100% 30 3.2 Les échantillons probabilistes 3.2.3.2 L’échantillon stratifié non-proportionné Contrairement à l’échantillon stratifié proportionné, cette méthode d’échantillonnage n’implique pas de respecter les proportions des strates. Ainsi, certaines strates sont artificiellement sur-représentées ou sous-représentées. Ce type d’échantillonnage est particulièrement indiqué lorsque la taille de la strate est très faible, permettant ainsi d’obtenir un nombre d’individu suffisant au sein de la strate que pour mener des analyses. 3.2 Les échantillons probabilistes 3.2.3.2 L’échantillon stratifié non-proportionné Exemple: Pratique du Sport chez les étudiants à l’UCLouvain (N=30.089) Calcul d’un échantillon stratifié proportionné de 500 individus Profil Sportif nS P Échantillon Étudiants UCL N=30.089 Carte sportive 18022 59,9% 300 Sans carte 11976 39,8% 199 sportive Étudiants avec carte Étudiants sans carte Étudiants Sportifs de Sportifs de haut 91 0,3% 1 sportif sportifs Haut Niveau niveau N=18.022 N=11.976 N=91 59,9% 39,8% 0,3% Total 30089 100% 500 Si la catégorie « Sportifs de Haut niveau » est importante pour les besoins de l’étude, comment produire des statistiques sur aussi peu d’observations? ➔ Besoin d’ajuster les proportions 3.2 Les échantillons probabilistes 3.2.3.2 L’échantillon stratifié non-proportionné Exemple: Pratique du Sport chez les étudiants à l’UCLouvain (N=30.089) L’allocation non-proportionnée peut se faire Calcul d’un échantillon stratifié non-proportionné de 500 individus de manière arbitraire mais il existe des techniques plus avancées qui ne seront pas Filières nS P Échantillon parcourues dans le cadre de ce cours. Carte sportive 18022 50% 250 Sans carte 11976 35% 175 Avec 75 sportifs de haut niveau, il est sportive désormais possible de mener des statistiques sur ce groupe. Sportifs de haut 91 15% 75 niveau Total 30089 100% 500 3.2 Les échantillons probabilistes 3.2.3.3 Stratification à plusieurs niveaux La stratification à plusieurs niveaux est possible, du moment que l’on est en possession des variables nécessaires pour affecter les probabilités de sélection. Les probabilités sont calculées à partir des effectifs croisés ou du produit des probabilités des différents niveaux de strates Profil sportif nS1 P1 Kot nS2 P2 P12 Échantillon (500) Avec carte sportive 18022 59,9% Avec Kot 12453 69,1% 41,4% 207 Avec carte sportive 18022 59,9% Sans kot 5569 30,9% 18,5% 93 Sans carte sportive 11976 39,8% Avec Kot 6117 51,1% 20,3% 102 Sans carte sportive 11976 39,8% Sans kot 5859 48,9% 19,5% 97 Sportif de Haut niveau 91 0,3% Avec Kot 9 9,9% 0,003% 0 Sportif de Haut niveau 91 0,3% Sans kot 82 90,1% 0,027% 1 3.2 Les échantillons probabilistes 3.2.4 L’échantillon aréolaire (par grappes) Sur la méthode de tirage: similaire à l’échantillonnage aléatoire simple MAIS se base sur des ensembles d’unités statistiques: Ménages, rues, quartiers, entreprises, écoles,… On sonde ensuite les unités statistiques présentes dans l’unité collective Nécessite une liste exhaustive des unités collectives On fixe un nombre d’unités collectives à sélectionner La taille d’échantillon est la somme des unités statistiques composant les unités collectives sélectionnées Désavantage: perte de diversité. Qualité de la représentativité moindre. 3.2 Les échantillons probabilistes 3.2.4 L’échantillon aréolaire (par grappes) Unités statistiques Population Grappes Échantillon/ grappes sélectionnées Classes Sélection N élèves aléatoire 3.2 Les échantillons 1A X 26 probabilistes 1B 27 3.2.4 L’échantillon aréolaire (par grappes) 1C 32 Exemple: élèves d’une école secondaire 1D X 29 1E 28 n = 26 +29+27+… 2A X 27 2B 27 … … … 3.2.4 L’échantillon aréolaire à plusieurs degrés Principe: sélectionner des unités d’ensembles de plus en plus réduites, et au 3.2 Les final sonder une partie des unités statistiques. échantillons Contrairement à l’échantillonnage probabilistes aréolaire simple, on ne sonde pas l’entièreté de la grappe. UPS, USS, UTS… Unités primaires/ secondaires/ tertiaires de sondage 3.2 Les échantillons probabilistes Avantages: Qualité de l’inférence mieux garantie (cf. lois de probabilités MQ2). La garantie de reproduire la structure de la population dans l’échantillon est plus grande Lorsque l’échantillon est de grande taille, l’échantillon aléatoire simple est censé garantir la représentativité des différentes strates. Lorsque l’échantillon est de faible taille, cela n’est pas forcément le cas. L’échantillonnage aréolaire facilite la collecte de données Comme l’on connait la distribution de la population, on peut tenir compte des éventuels biais de l’échantillonnage ➔ Pop= 51% d’hommes, échantillon= 41% d’hommes Désavantages: Nécessite des listes exhaustives de la population (ou des unités collectives) ➔ Pas toujours accessibles, peut être couteux (accès au registre national) Peut être lourd et fastidieux 3.3 Les échantillons empiriques Principe général : Tenter, quand c’est possible, de reconstituer le hasard sans disposer d’un fichier sur la population La probabilité de sélection des unités statistiques n’est donc pas connue. Moins précis que les échantillonnages probabilistes Une logique : chercher la diversité maximale 3.3 Les échantillons empiriques 3.3.1 L’échantillonnage par quotas On identifie les caractéristiques importantes de la population On estime le nombre de personnes à sonder pour chacune de ces caractéristiques On arrête de sonder les personnes remplissant les critères une fois le nombre (quota) atteint. Exemple: On cherche à former un échantillon de 1000 personnes de la Belgique et un critère important serait la région de provenance. On va du coup fixé un quota maximal au nombre de flamands, wallons et bruxellois qui peuvent participer à l’enquête. On aurait ainsi par exemple des quotas fixés à 320 wallons, 575 flamands et 105 bruxellois. ➔Moins fiable que l’échantillon probabiliste mais garde le contrôle sur des proportions estimées de caractéristiques importantes de la définition de la population. 3.3 Les échantillons empiriques 3.3.2 L’échantillonnage accidentel (de convenance) Principe: l’échantillon est constitué à partir d’individus de la population prêts à participer et à portée de main. Généralement, cette méthode est plus indiquée pour les enquêtes en face-à-face, impliquant un déplacement et un investissement plus important de l’enquêteur, mais possibilité de le réaliser via internet/téléphone. Exemples: Enquête sur les étudiants: attendre à la sortie des auditoires et sonder Enquête sur la consommation d’alcool: sonder des personnes au hasard dans les rues peuplées de bar/discothèque Principe générer du hasard dans les rencontres: toutes les X personnes croisées; tracés dans des villes à partir de points de départ aléatoire ; … 3.3 Les échantillons empiriques 3.3.3 L’échantillonnage en boule de neige Principe: Passation de départ à quelques individus Diffusion du questionnaire par renseignement d’individus supplémentaires par les premiers répondants et ainsi de suite Échantillonnage en boule de neige et de convenance sont pratiques pour sonder des populations difficiles à atteindre. 3.3 Les échantillons empiriques 3.3.4 L’échantillon volontaire Principe: Laisser les répondants (avec ou sans invitation) la liberté de répondre au questionnaire Diffuser un questionnaire par un réseau social; Laisser des questionnaires sur une table à la bibliothèque; Sondage Metro (cf. Éléments Épistémologiques) Échantillonnage le moins rigoureux et le plus biaisé 3.3 Les échantillons empiriques Avantages: Facilité (et coût) de mise en œuvre Pas de nécessité de listes exhaustives et d’un fichier de tirage S’adapte au difficultés d’accès à la population tout en tentant dans certains cas de reconstituer le hasard Désavantages: Constitution d’un échantillon bien moins représentatif de la population Risques de biais plus importants Quotas: biais de sélection Convenance: problème des incitants et intérêts des personnes à participer Boule de Neige : Forte homogénéité sociale Volontaire : absence presque totale de contrôle sur l’échantillonnage 3.4 Comparatifs des méthodes d’échantillonnage Représentativité Versus Facilité de constitution de l’échantillon EA stratifié Représentativité proportionné EA simple ou systématique Portée de l’inférence importante de la population visée Probabilité d’une représentativité Rigueur scientifique Facilité EA aréolaire Moindre coût Adaptation aux réalités EA stratifié non- proportionné EE accidentel EE par quotas Doit-on forcément choisir? EE boule de EE volontaire neige Oui mais possibilité de combiner les techniques! Facilité de constitution 3.5 l’échantillonnage mixte Principe: Même principe que l’échantillon aréolaires à degrés. Décomposer l’échantillonnage en phases hiérarchisées. A chaque étape, une méthode d’échantillonnage est appliquer. Exemple : Sonder une ville sans fichier de recensement Phase 1: Échantillonnage aléatoirement des quartiers Phase 2: Échantillonner aléatoirement une rue dans le quartier Phase 3: Systématiser un tracé (tout droit, première à droite, deuxième à gauche… Si pas possible prendre…) Phase 4: Sonder la population présente dans la rue par quota: Hommes, femmes, âge,… 3.6 Taille et précision d’un échantillon 3.6.1 Marge d’erreur d’un échantillon Marge d’erreur: késako? La marge d'erreur, c'est la précision du résultat obtenu étant donné le seuil de confiance que l'on est prêt à accepter Comment la calculer? 1a) Fixer un seuil de confiance α C’est la probabilité que l’échantillon constitué ne représente pas correctement la population étudiée. Le seuil minimal usuel est de 95% mais peut être plus élevé. Cela signifie que si l’on échantillonne plusieurs fois une population, en moyenne 95 échantillons sur 100 seront représentatifs de la population. 3.6 Taille et précision d’un échantillon α Score Z 3.6.1 Marge d’erreur d’un échantillon 99,9 3,29 1b) Trouver la valeur Z du seuil de confiance α désiré 99 2,58 Les valeurs Z – dites standardisées ou normalisées, seront vues en 98 2,33 MQ2 Voici cependant un aperçu des 97 2,18 valeurs Z standards 96 2,06 95 1,96 3.6 Taille et précision d’un échantillon 3.6.1 Marge d’erreur d’un échantillon 2) Calcul de la marge d’erreur 𝑝(1 − 𝑝) 𝑀𝐸 = 𝑍∝ ∗ 100 𝑛 Où Zα est le score Z du seuil de confiance α P est la probabilité que le comportement observé soit présent dans la population. Si p est inconnu, elle est alors fixée à 0.5 (score maximal) Et n la taille de l’échantillon 3.6 Taille et précision d’un échantillon 3.6.1 Marge d’erreur d’un échantillon Exemple: On réalise une étude sur les personnes en recherche d’emploi. A un seuil de confiance de 95% (Z=1,96), et une probabilité de 12% qu’une personne active soit en recherche d’emploi pour un échantillon de 350 personnes 𝑝(1−𝑝) 0,12∗0,88 𝑀𝐸 = 𝑍∝ ∗ 100 = 1,96 = 0,034 ➔ Marge d’erreur de 3.4% 𝑛 350 Si les résultats de l’étude affirment que 86% des chômeurs recherchent de l’emploi activement. Cela signifie que la véritable statistique se situerait entre 82,6% et 89,4%. Soit 86% ± 3,4% 3.6 Taille et précision d’un échantillon 3.6.1 Marge d’erreur d’un échantillon N=100 N=200 p p 0,1 0,2 0,3 0,4 0,5 0,1 0,2 0,3 0,4 0,5 99 7,74 10,32 11,82 12,64 12,9 99 5,473 7,297 8,36 8,937 9,122 Plus l’échantillon est grand, moins la marge d’erreur est Seuil de Confiance Seuil de Confiance 98 6,99 9,32 10,68 11,41 11,65 98 4,943 6,59 7,55 8,071 8,238 théoriquement élevée 97 6,54 8,72 9,99 10,68 10,9 97 4,624 6,166 7,064 7,552 7,707 96 6,18 8,24 9,44 10,09 10,3 96 4,37 5,827 6,675 7,136 7,283 95 5,88 7,84 8,982 9,602 9,8 95 4,158 5,544 6,351 6,79 6,93 N=400 N=1000 p p 0,1 0,2 0,3 0,4 0,5 0,1 0,2 0,3 0,4 0,5 Plus le seuil de confiance 99 3,87 5,16 5,912 6,32 6,45 99 2,448 3,263 3,739 3,997 4,079 désiré est élevé, plus la marge d’erreur est élevée! Seuil de Confiance Seuil de Confiance 98 3,495 4,66 5,339 5,707 5,825 98 2,21 2,947 3,376 3,61 3,684 97 3,27 4,36 4,995 5,34 5,45 97 2,068 2,758 3,159 3,377 3,447 96 3,09 4,12 4,72 5,046 5,15 96 1,954 2,606 2,985 3,191 3,257 95 2,94 3,92 4,491 4,801 4,9 95 1,859 2,479 2,84 3,036 3,099 3.6 Taille et précision d’un échantillon 3.6.2 Tailles d’échantillon Le calcul des tailles d’échantillons désirées, dépend de la marge d’erreur désirée: 𝑍α2 ∗ 𝑝(1 − 𝑝) 𝑛= 𝑀𝐸2 Pour un seuil de confiance de 95%, d’une probabilité maximale (0,5) et d’une marge d’erreur maximale de 5%, la taille d’échantillon théorique devrait être de: 1,962 ∗ 0,5(1 − 0,5) 3,84 ∗ 0,25 𝑛= = = 384 0,052 0,0025 3.6 Taille et précision d’un échantillon 3.6.2 Tailles d’échantillon Marge d’erreur p=0,5 0,01 0,02 0,03 0,04 0,05 0,99 16641 4160 1849 1040 666 Seuil de confiance 0,98 13572 3393 1508 848 543 0,97 11881 2970 1320 743 475 La garantie de représentativité et/ou la précision des résultats à un coût!! 0,96 10609 2652 1179 663 424 0,95 9604 2401 1067 600 384 3.6 Taille et précision d’un échantillon 3.6.2 Tailles d’échantillon Ce calcul ne tient compte que de la taille théorique Il faut également tenir compte de la validité, l’éligibilité et du taux de réponse des unités statistiques. Validité: les listes exhaustives ne sont pas toujours à jour et une proportion des unités statistiques est habituellement non valide. Numéro de téléphone non-attribué, personne à déménager, adresse email non valide… Éligibilité: Une part des personnes ne peut participer à l’enquête: Âge de participation non atteint, personne ne parle pas la langue de l’enquête, personne atteinte d’handicap sensoriel/mental,… Taux de réponse: le répondant ne veut pas répondre, le répondant ne répond pas, le répondant ne complète pas le questionnaire dans son intégralité… 3.6 Taille et précision d’un échantillon 3.6.2 Tailles d’échantillon S’il est difficile d’estimer l’ensemble de ces proportions, il faut pouvoir en tenir compte car cela va affecter grandement la qualité de l’échantillon en terme de représentativité et de précision. Comment en tenir compte? En multipliant l’échantillon désiré de départ par une estimation des différents taux. 1 1 1 𝑛𝑓𝑖𝑛𝑎𝑙 = 𝑛𝑑é𝑝𝑎𝑟𝑡 ∗ ∗ ∗ 𝑣𝑎𝑙𝑖𝑑𝑖𝑡é é𝑙𝑖𝑔𝑖𝑏𝑖𝑙𝑖𝑡é 𝑡𝑎𝑢𝑥 𝑑𝑒 𝑟é𝑝𝑜𝑛𝑠𝑒 On veut constituer un échantillon de 400 individus, en estimant un taux de validité de 95%, un taux d’éligibilité de 98% et un taux de réponse de 40% 1 1 1 ➔ 𝑛𝑓𝑖𝑛𝑎𝑙 = 400 = 1074 0,95 0,98 0,4 ➔Pour obtenir 400 individus, on devrait se préparer à sonder 1074 individus 3.6 Taille et précision d’un échantillon 3.6.2 Tailles d’échantillon Estimation des différents taux? Validité: Est-ce que ma liste est à jour et sans erreur? Éligibilité: Est-ce que l’échantillonnage prend en compte l’âge (question légale de l’enquête) du répondant, la langue, la capacité à répondre,… ? ➔Un taux par défaut serait de 95% Mais peut varier en fonction de la spécificité de la population ciblée. Réponse: varie en fonction des dispositifs d’enquête (en ligne/en face-à-face/par téléphone) Complétude: dépend de la stimulation/de l’intérêt/de la longueur… du questionnaire 3.6 Taille et précision d’un échantillon Dans la réalité, peu d’échantillons sont non-biaisés. Il existe cependant des techniques de redressement de l’échantillon (postérieures à l’échantillonnage) comme la pondération… On y reviendra plus tard… 4. Élaboration du questionnaire De la théorie à l’ancrage dans le concret…. 4.1 Processus de création Le questionnaire est la partie la plus étroite d’un entonnoir – et peut faire l’objet d’une certaine dramatisation Quel processus pour construire un questionnaire? Se mettre autour d’une table et évoquer des questions dans tous les sens ? 4.1 Processus de création Le questionnaire est la partie la plus étroite d’un entonnoir – et peut faire l’objet d’une certaine dramatisation Quel processus pour construire un questionnaire? Se mettre autour d’une table et évoquer des questions dans tous les sens ? Connecter chaque question aux indices, en suivant le processus entamé en amont? 4.1 Processus de création Une règle d’or : on ne réfléchit jamais trop! De la question de recherche aux questions du questionnaire… et retour. Chaque question doit être connectée à un indicateur Chaque question doit faire sens ➔ Avoir le modèle d’analyse en vue Que veut-on tester? Quelles statistiques voulons-nous produire? Une fois l’enquête lancée, les modifications sont quasi-impossibles ➔ Les erreurs sont irréparables On ne fait rien au hasard! 4.1 Processus de création 4.1.0 Critères de construction d’un bon questionnaire - La parcimonie - La structure - La clarté (univocité) 4.1 Processus de création 4.1.1 La parcimonie - A-t-on posé toutes les questions nécessaires? N’a-t-on rien oublié? Ce n’est normalement plus le temps des discussions théoriques ou sur le périmètre - Et n’a-t-on posé QUE les questions nécessaires? Voit-on bien l’usage qui pourra être fait de chaque question dans l’analyse? ! La longueur du questionnaire est la première cause d’abandon de la part des répondants ! Pensez aux techniques de data management (cf. Gestion des données) que vous maîtrisez afin d’alléger le questionnaire. Exemple: si vous demandez la date de naissance au répondant, avez-vous besoin de leur demander leur âge? 4.1 Processus de création 4.1.2 La structure a) Des questions : - L’importance de la 1e question - L’importance de la difficulté des questions - L’importance de la sensibilité des questions - L’importance de l’intérêt des questions - L’importance de la monotonie des questions - (risque de réponses automatiques) ! Le désintérêt est la principale cause de réponses de mauvaise qualité (réponses « top of the head ») Plus un individu est intéressé, plus a de chance d’aller jusqu’au bout (auto-sélection DANS questionnaire) Couper dans monotonie 4.1 Processus de création 4.1.2 La structure b) Du questionnaire - S’assurer que le répondant soit bien concerné par la question qui lui est posée - Penser éventuellement à une architecture du questionnaire en Module. Intéressant s’il y a beaucoup de questions. - Utiliser éventuellement des filtres conditionnels (automatisés avec des logiciels) Ex. « Si vous avez répondu oui, passez à la question X. Si vous avez répondu non, passez à la question Y » 4.1 Processus de création 4.1 Processus de création 4.1.3 La clarté - Le questionnaire requiert un « contrat de communication » - Permettre une compréhension immédiate - Développer une mise en page appropriée en fonction du mode de passation utilisé. 4.1 Processus de création Développer une mise en page appropriée en fonction du mode de passation utilisé. format papier Pourquoi la passation par format papier est plus dense? ➔ Nombre de page à imprimer. (coût de la recherche) ➔ Donner un questionnaire de 20-30 pages (voire beaucoup plus) peut faire peur à la personne sondée. 4.1 Processus de création Développer une mise en page appropriée en fonction du mode de passation utilisé. En ligne En ligne, utilisation de la barre de progression pour que les répondants savent se situer 4.2 Questions et variables 4.2.0 Typologie des questions Du point de vue de Du point de vue technique l’information véhiculée… Questions de comportement Les questions ouvertes Questions d’opinion Les questions fermées Questions d’intention Questions de connaissance Renseignements signalétiques 4.2 Questions et variables 4.2.1 Les questions ouvertes « Quelle est la principale difficulté que vous rencontrez au quotidien dans votre métier d’enseignant? » ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………… Avantages : - Comporte plus d’info, plus nuancée - S’adapte plus facilement au répondant Désavantages : - Difficile à encoder et standardiser (c’est toutefois possible) - Cher à traiter 4.2 Questions et variables 4.2.2 Les questions fermées - Panel de réponses fournies Avantage : - Traitement aisé de l’information Désavantages : - Nécessite une connaissance de la problématique - Risque d’enfermer le répondant dans des choix qui ne sont pas les siens - Nécessité d’avoir des catégories mutuellement exclusives ET exhaustives - Risque de désirabilité sociale (importance du prétest) Le challenge : « prévoir les mondes possibles » 4.2 Questions et variables 4.2.2 Les questions fermées Quand la clôture des mondes possibles est (ou semble…) facile : Inclusion des identités de genre? Sexe à la naissance? Quid des intersexes? 17. Combien de films d’horreurs avez-vous vu? Définition du film d’horreur? [réponse numérique] Qu’est ce que voir? Si on s’est endormi? 4.2 Questions et variables 4.2.2 Les questions fermées Quand la clôture des mondes possibles est plus compliquée: Problème de la catégorie « autre » qui va vous embêter pour l’analyse 4.2 Questions et variables 4.2.2 Les questions fermées Un cas (a priori) plus facile : les questions d’opinion (avec échelle d’évaluation) Question du sans avis, du je ne sais pas, du je ne suis pas concerné… 4.2 Questions et variables 4.2.2 Les questions fermées Une multitude de forme possibles: À réponse unique À réponses multiples À classement … 4.2 Questions et variables 4.2.3 Relations entre les questions et les variables Chaque question devient une variable Chaque réponse possible devient une modalité Chaque type de question (fermée) donnera lieu à un type de variable en fonction de l’échelle de mesure utilisée Les variables nominales Les variables ordinales Les variables numériques La possibilité plus ou moins restreinte de travailler sur le statut des variables 4.2 Questions et variables 4.2.3 Relations entre les questions et les variables Les variables nominales : -> catégories mutuellement exclusives et collectivement exhaustives -> Aucun ordre possible (a≠b≠c) Exemple : le genre, le code postal 4.2 Questions et variables 4.2.3 Relations entre les questions et les variables Les variables nominales : A priori: pas de calcul possible sur les variables nominales /!\ au cas spécifique des variables dichotomiques (2 possibilités de réponses) Possibilité de calcul possible sur ces questions Préférable de coder les modalités 0 et 1 pour des raisons de facilité d’interprétation (trop régulièrement les enquêtes codent en 1 et 2) 4.2 Questions et variables 4.2.3 Relations entre les questions et les variables Les variables ordinales: -> catégories mutuellement exclusives et collectivement exhaustives -> Catégories ordonnées selon un ordre logique (a Catégories ordonnées selon un ordre (a

Use Quizgecko on...
Browser
Browser