Chapter 2: Data Representation in Psychology (PDF)
Document Details
Uploaded by QualifiedScholarship
Tags
Summary
This chapter introduces data representation methods in psychology, focusing on experimental methods and different levels of measurement (nominal, ordinal, and numerical). It provides examples of how to apply these methods, and emphasizes the importance of identifying independent and dependent variables.
Full Transcript
Méth et stats S1 – Chapitre 2 : La représentation des données 1. La mesure / rappel sur la méthode expérimentale Dans le Chap.1, nous avons vu les différentes techniques de recueil des données rencontrées en psychologie. Ces techniques différentes produisent des données de types différents, qui vont...
Méth et stats S1 – Chapitre 2 : La représentation des données 1. La mesure / rappel sur la méthode expérimentale Dans le Chap.1, nous avons vu les différentes techniques de recueil des données rencontrées en psychologie. Ces techniques différentes produisent des données de types différents, qui vont donner lieu à des traitements différents. Ces données correspondent à la mesure qui a été faite. La mesure est également appelée variable dépendante (VD). Cette variable (quelque chose qui varie) est dite « dépendante » car elle dépend du participant. Dans la méthode expérimentale (utilisable avec toutes les techniques de recueil de données : observation, questionnaire, entretien, tâche expérimentale et test), l’expérimentateur fait varier un facteur expérimental, et il observe la variation correspondante sur la mesure. Ce facteur expérimental est appelé variable indépendante (VI) : il ne dépend pas du participant (mais de l’expérimentateur). L’expérimentateur fait varier une VI, il observe la variation correspondante sur la VD. Prenons un exemple. En psychologie cognitive, on montre que l’apprentissage distribué (avec des pauses) est plus efficace que l’apprentissage massé (sans pause). Ainsi on peut donner aux participants la consigne d’apprendre une liste de 50 mots pendant 10 minutes. La VI sera le type d’apprentissage : la moitié des participants vont faire un apprentissage massé (10 minutes sans interruption), l’autre moitié un apprentissage distribué (10 minutes plus une pause de 30 secondes toutes les deux minutes). Pour chaque participant, on mesure le nombre de mots appris grâce à une tâche de rappel, c’est la VD. On observe que le nombre de mots appris est plus grand en condition distribuée qu’en condition massée : la VI a donc bien un effet sur la VD. Comme la valeur de la VD est expliquée par la VI (elle est plus grande quand l’apprentissage est distribué que quand il est massé), la VI, qui est aussi appelée facteur expérimental, prend également le nom de facteur explicatif. Certaines variables peuvent être suivant les cas des VI ou des VD. Par exemple, s’agissant de l’intensité émotionnelle, on peut étudier le fait que les enfants souffrant de handicaps expriment plus d’émotions que les enfants sans handicap. Dans ce cas, l’intensité émotionnelle représente ce qui est mesuré, c'est-à-dire une VD (la VI étant le handicap : avec ou sans). Si en revanche on étudie l’effet de l’intensité émotionnelle sur la production écrite, cette fois-ci l’intensité émotionnelle est une VI (la VD étant la production écrite). Enfin, on peut avoir dans une même étude plusieurs VIs, et plusieurs VDs. Dans l’exemple sur l’apprentissage massé/distribué, l’expérimentateur peut aussi faire varier l’âge des participants, et comparer les performances des jeunes adultes avec celles des seniors. L’âge des Page 1 sur 18 participants constituera une VI supplémentaire. Et en plus de mesurer le nombre de mots appris, il peut mesurer le temps mis par les participants pour rappeler les mots, une deuxième VD. La première chose à faire est d’identifier la ou les VI et VD. Cela conditionne le travail statistique qui sera fait sur les données recueillies. 2. Les différents niveaux de mesure En psychologie, il n’existe pas d’instrument à partir duquel on peut tout mesurer, ni une condition et une seule où tout se mesure. Ainsi, la complexité des faits psychologiques ne saurait s’appréhender par le biais d’un ou de quelques instruments de mesure, et d’une ou de quelques conditions de prélèvement. Cependant, même s’il existe une multitude d’instruments permettant de mesurer les phénomènes psychologiques, il n’existe guère plus de trois catégories différentes de mesures. Ces catégories de mesures sont appelées en statistiques des niveaux de mesures (on dit aussi échelles de mesure). En fonction du niveau de mesure, différentes représentations et traitements statistiques seront possibles (avec des niveaux informatifs différents). Il est donc important, une fois la (ou les) VI et VD identifiées, de déterminer le niveau de mesure de la (ou des) VD. Une fois le niveau de mesure identifié, les statistiques descriptives nous offrent un éventail de méthodes numériques et graphiques qui permettent de présenter les données sous une forme lisible, synthétique (c.à.d. résumée), et surtout signifiante. C’est la représentation des données. Il existe trois niveaux de mesure différents : le niveau nominal, ordinal et numérique. Encore une fois, en fonction du niveau de mesure de la VD, différentes descriptions et traitements seront possibles à partir des données obtenues (par exemple, nous le verrons dans le Chapitre 3, il n’est pas possible de calculer une moyenne à partir d’une VD nominale ou ordinale : elle doit être numérique). 2.1. Le niveau nominal Une variable dépendante (VD) varie par définition, donc peut prendre plusieurs formes ou valeurs, qu’on appelle les différentes modalités de la variable (on parlera de modalités pour la VI également). La nature des modalités de la VD détermine le niveau de mesure. On parle d’une VD nominale (ou d’un niveau de mesure nominal) quand ses modalités n’ont qu’une visée descriptive des phénomènes sur lesquels elles portent. On cherche ici à donner un nom, et non une valeur numérique aux phénomènes que l’on observe. Les modalités de la variable sont non hiérarchisées (non ordonnées), c'est-à-dire qu’une modalité n’est pas Page 2 sur 18 inférieure ou supérieure à une autre. Par exemple, si vous interrogez 20 enfants et que vous leur demandez quelle est leur couleur préférée, 10 peuvent répondre « bleu », 7 « vert », et 3 « rouge ». Vous êtes dans l’impossibilité d’ordonner ces réponses, « vert » n’est pas une réponse plus juste que « bleu ». Il s’agit donc d’un niveau de mesure nominal. 2.2. Le niveau ordinal Comme pour les variables nominales, il s’agit de catégoriser les phénomènes relevant de la variable étudiée, mais les modalités d’une variable ordinale peuvent être hiérarchisées, c.à.d. ordonnées. En psychologie, les variables ordinales les plus connues sont les échelles d’opinion ou d’attitude. Les catégories qui les composent sont ordonnées par des gradients qui permettent au participant d’apprécier l’ordre. Ces catégories peuvent être définies sémantiquement, comme dans cet exemple : Jusqu’à quel point pensez-vous contrôler vos horaires de travail ? (Entourez votre réponse) Pas du tout Un peu Pas mal Beaucoup Totalement Ou bien ces catégories peuvent être définies numériquement, comme dans celui-ci (type d’échelles qui semble le plus employé à l’heure actuelle) : À cette époque, étiez-vous satisfait(e) des possibilités de promotion dans votre profession ? ___1______2______3______4_______5_______6_______7___ Extrêm. insatisfait(e) Extrêm. satisfait(e) Il est important de noter que, même s’il est possible de hiérarchiser les modalités d’une variable ordinale, il n’existe pas d’intervalles mesurables et réguliers entre ces modalités. En effet, nous ne pouvons pas mesurer l’intervalle entre « pas du tout » et « un peu », ni considérer que c’est le même que celui entre « pas mal » et « beaucoup ». Cela n’a aucun sens. Attention, cela est aussi valable pour des catégories définies numériquement comme dans le deuxième exemple : on ne peut pas mesurer l’intervalle entre les réponses « 2 » et « 3 », et on n’a pas non plus de preuve que c’est le même que celui entre les réponses « 6 » et « 7 ». Les nombres utilisés ici ne sont qu’un code de l’ordre. Donc même si les réponses sont codées numériquement, une échelle d’opinion ou d’attitude reste ordinale, et n’est pas numérique pour autant (voir 2.3.). Page 3 sur 18 Enfin, si on ajoute la possibilité de répondre « je ne sais pas » ou « je ne me prononce pas », la variable ne peut plus être considérée comme ordinale. Elle redevient nominale car la réponse « je ne sais pas » ne peut pas être ordonnée par rapport aux autres réponses. 2.3. Le niveau numérique Par défaut une VD est nominale. Si les modalités de la VD peuvent être ordonnées, celle-ci devient ordinale. Si maintenant, en plus, l’intervalle entre ces modalités successives a un sens, est mesurable et régulier, le niveau de mesure devient numérique. A cause de cette propriété, on appelle aussi les les niveaux de mesure numériques des échelles d’intervalles. Les modalités de la VD sont alors des nombres qui ont un sens, au-delà d’un simple code comme vu ci-dessus. Prenons un exemple. Les notes obtenues à un examen de 0 à 20 correspondent à une VD numérique. En effet, l’intervalle entre les modalités successives a un sens et est régulier : l’intervalle entre la note 8 et la note 9 représente 1 point, il est le même que l’intervalle entre les notes 13 et 14. Avec un niveau de mesure numérique, les opérations arithmétiques classiques (addition, soustraction, multiplication et division, donc calcul de moyenne) peuvent être utilisées. Ce n’était pas le cas pour les échelles nominales ou ordinales. Une VD numérique peut être discontinue ou discrète, ou bien continue. Dans l’exemple d’une note entre 0 et 20, avec des demi-points possibles, on a affaire à une variable discrète : on peut obtenir la note 11.5 ou 12, mais pas la note 11.63. La variable serait continue si toutes les valeurs entre 11.5 et 12 pouvaient être observée (il y en a en fait une infinité) : donc 11.63, par exemple, mais aussi 11.634. Dans quels cas peut-on avoir une VD numérique continue ? Si par exemple on mesure un temps de réponse (avec un instrument suffisamment précis), c’est-à-dire le temps mis par un participant pour répondre à un stimulus ou faire une tâche particulière. Toutes les valeurs sont possibles, elles se répartissent continûment. 3. Le tableau de protocole Une fois les données recueillies, il convient de savoir comment les représenter afin d’en extraire les premières informations (de les « faire parler »). Page 4 sur 18 Les données brutes, c'est-à-dire non traitées, sont d’abord présentées dans un tableau de protocole. A partir de ce protocole, une distribution des données peut être examinée, sous forme de tableau (tableau de distribution) ou sous forme graphique (graphe de distribution). Le protocole est un tableau de données sur lequel sont visibles les mesures effectuées pour chaque participant. Si on prend comme exemple la question posée à 12 enfants sur leur couleur préférée, le protocole pourrait se présenter ainsi : Bleu Participant 1 X Participant 2 X Participant 3 Vert Rose X Participant 4 X Participant 5 X Participant 6 X Participant 7 Participant 8 X X Participant 9 Participant 10 X X Participant 11 Participant 12 Rouge X X Tableau 1. Protocole des réponses de participants à la question « quelle est ta couleur préférée ? » !! Notez qu’à tout tableau (et à tout graphe), on donne un numéro, et un titre aussi informatif et précis que possible, qui figure en dessous. 4. La distribution Etablir une distribution des données constitue la première étape de traitement (de résumé) des données recueillies. Il s’agit de présenter les effectifs (le nombre de participants) pour chaque modalité de la VD. Ces effectifs s’appellent en fait des effectifs partiels : on verra plus loin l’utilisation d’effectifs cumulés. On peut indiquer l’effectif partiel pour chaque modalité, mais aussi la proportion ou le pourcentage. La distribution peut se présenter sous forme de tableau et/ou de graphe. Page 5 sur 18 4.1. Le tableau de distribution - Distribution d’effectifs On va regarder comment se distribuent les participants en fonction des différentes modalités de la VD. La question est : « Quel est le nombre de participants pour chaque modalité ? ». Il suffit de compter. Voici le tableau de distribution des données précédentes : xi bleu vert rose rouge ni 5 3 2 2 Tableau 2a. Distribution des effectifs de participants en fonction de leur réponse à la question « Quelle est ta couleur préférée ? » La première ligne correspond toujours aux modalités de la VD, notée x, les modalités étant indicées par i. La deuxième ligne donne toujours les effectifs correspondants : ni. Donc, pour la notation : i = indice de la modalité de la VD, varie de 1 à 4 ici (4 modalités) xi signifie modalité i de la VD ni signifie effectif pour la modalité i donc x3 = modalité 3, et n4 = effectif de la modalité 4 Vous avez le choix entre l’utilisation de la notation symbolique ci-dessus ou sa traduction au cas particulier rencontré : Couleur préférée bleu vert rose rouge 5 3 2 2 Effectif Tableau 2b. Distribution des effectifs de participants en fonction de leur réponse à la question « Quelle est ta couleur préférée ? » On doit vérifier que la somme des effectifs partiels atteint N (l’effectif total, 12 ici). Si ce n’est pas le cas, recommencer : il y a une erreur quelque part. En écriture symbolique, on doit vérifier que : n i =N i où signifie " somme"et N = effectif total n i 4 (se lit somme sur i des ni ) = ni (se lit somme pour i = 1 à 4 des ni ) = n1 + n2 + n3 + n4 i i =1 5 + 3 + 2 + 2 = 12 ok Page 6 sur 18 - Distribution de proportions (ou fréquences) Le problème des effectifs partiels est qu’ils dépendent de l’effectif total : avec deux fois plus de participants (24), l’effectif pour « bleu » ne serait pas 5 mais 10. Donc à une mesure absolue de la distribution (les effectifs), on peut préférer des mesures relatives : proportions ou pourcentages. Celles-ci ne dépendent pas de l’effectif total (c.à.d., seront les mêmes si on double le nombre de participants comme ci-dessus). En effet, on définit la proportion (proportion partielle) ainsi : pi = ni N C’est l’effectif partiel rapporté (relativement) à l’effectif total. Donc une proportion de 0.5 (1/2) signifie que l’effectif partiel représentait la moitié de l’effectif total (50% des participants). Une proportion de 0.25 (1/4) signifie que l’effectif partiel représentait le quart de l’effectif total (25% des participants), etc. Par définition, comme ni varie potentiellement entre 0 et N, pi varie entre 0 et 1. On peut parler de fréquence ou de proportion, c’est la même unité (on verra plus tard que c’est aussi la même unité pour les probabilités). Le tableau de distribution des proportions dans l’exemple précédent est alors (la deuxième ligne est optionnelle) : xi bleu vert rose rouge ni 5 3 2 2 pi 0.42 0.25 0.17 0.17 Tableau 3. Distribution des proportions de participants en fonction de leur réponse à la question « Quelle est ta couleur préférée ? » De même qu’on vérifiait précédemment que la somme des effectifs partiels était N, on doit ici vérifier que la somme des proportions est 1. Cela s’écrit : i pi = 1 ici 0.42 + 0.25 + 0.17 + 0.17 = 1.01 ok (erreur d'arrondi) - Distribution de pourcentages Le pourcentage s’obtient simplement en multipliant la proportion par 100 : % i = pi 100 Dans notre exemple, le tableau devient : Page 7 sur 18 xi bleu vert rose rouge ni 5 3 2 2 pi 0.42 0.25 0.17 0.17 %i 42 25 17 17 Tableau 4. Distribution des pourcentages de participants en fonction de leur réponse à la question « Quelle est ta couleur préférée ? » On doit ici vérifier que : % i = 100% i 4.2. Le graphe de distribution Le tableau de distribution (d’effectifs, de proportions ou de pourcentages) peut souvent être plus facilement interprété s’il est présenté sous forme graphique. Trois types de graphes sont à notre disposition : les diagrammes, les courbes, et les histogrammes. On choisira un type de graphes en fonction du niveau de mesure de notre VD (nominal, ordinal, ou numérique). 4.2.1. Les diagrammes Les diagrammes servent à représenter des données dont les modalités sont indépendantes les unes des autres. C’est en particulier le cas des variables nominales (« bleu » indépendant de « vert »), ce type de représentation est donc très utilisé pour les variables nominales. Par exemple, un psychologue décide d’étudier la répartition du nombre de patients phobiques qu’il a reçus en psychothérapie depuis deux ans. Il veut donc établir une distribution. Il s’agit bien d’une variable nominale ici : les modalités de la variable « type de phobie » ne peuvent pas être ordonnées. Les résultats qu’il obtient sont les suivants : Type de phobie Effectifs partiels Pourcentages Agoraphobie 18 20.69 Claustrophobie 37 42.53 Ereutophobie 4 4.60 Hypocondrie 16 18.39 Nosophobie 12 13.79 Tableau 5. Distribution des effectifs et des pourcentages de patients en fonction du type de phobie Par rapport aux tableaux de distribution vus plus haut, notez que l’entrée (xi, ni ou %i) est ici en colonnes plutôt qu’en lignes, cela revient au même. Page 8 sur 18 Pourcentage de patients Voici le diagramme correspondant (on dit aussi diagramme en barres) : 45 40 35 30 25 20 15 10 5 0 Type de Phobie Graphe 1. Distribution des pourcentages de patients en fonction du type de phobie. Notez qu’on peut aussi trouver cette information présentée dans un diagramme circulaire (« camembert »), même si nous utiliserons plutôt les diagrammes en barres. Nosophobie; 13,79 Agoraphobie; 20,69 Hypocondrie; 18,39 Claustrophobie ; 42,53 Ereutophobie; 4,6 Graphe 2. Distribution des pourcentages de patients en fonction du type de phobie. Page 9 sur 18 4.2.2. Les courbes - Effectifs partiels (effectifs) L’utilisation des courbes pour représenter une distribution permet d’intégrer l’ordre des modalités (quand il existe) dans la représentation. Par conséquent, avec une variable ordinale, on peut utiliser un diagramme comme ci-dessus, mais on utilise préférentiellement une courbe. Par exemple, dans le cadre d’un dispositif d’évaluation d’une formation, on souhaite mesurer le degré de satisfaction de 85 stagiaires ayant suivi cette formation. Le degré de satisfaction est mesuré grâce aux réponses à la question « Quelle appréciation porteriez-vous à l’égard de la formation que vous venez de suivre ? », sur une échelle en 7 points allant de « pas du tout satisfait » à « très satisfait ». Les résultats sont les suivants : Réponse (xi) 1 2 3 4 5 6 7 Effectifs partiels (ni) 2 4 7 10 16 34 12 Tableau 6. Distribution des effectifs partiels en fonction du degré de satisfaction Comme pour le diagramme, la distribution sous forme de courbe place les modalités de la VD en abscisses et les effectifs en ordonnées (la question étant « comment se distribuent les participants en fonction des modalités de la VD ? », y étant fonction de x). Cependant, les modalités de la VD étant ici ordonnées, on peut relier les points entre eux car l’allure de la courbe aura un sens : Effectifs partiels 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 Degré de satisfaction Graphe 3. Distribution des effectifs partiels en fonction du degré de satisfaction. (Notez la structure d’un titre de graphique : c’est toujours y en fonction de x). Page 10 sur 18 On peut bien sûr avoir des courbes pour des distributions de proportions ou de pourcentages. - Effectifs cumulés Avec une variable ordinale (et numérique), on peut aussi calculer, en plus des effectifs partiels, des effectifs cumulés (nc). Les effectifs cumulés sont obtenus en sommant, successivement, les effectifs partiels de chacune des modalités, comme indiqué ci-dessous : Réponse 1 2 3 4 5 6 7 Effectifs partiels (ni) 2 4 7 10 16 34 12 Effectifs cumulés (nc) 2 6 13 23 39 73 85 Tableau 7. Distribution des effectifs partiels et des effectifs cumulés en fonction du degré de satisfaction Le premier effectif cumulé est le même que l’effectif partiel, ensuite on fait : 4+2 = 6 7+6 = 13, etc. Jusque 12+73 = 85 (qui doit être trouvé égal à N). On parle d’effectif cumulé car pour une modalité de la VD (ici une réponse donnée), on cumule les effectifs partiels de cette modalité avec les effectifs partiels des modalités inférieures. Par exemple ici, pour la réponse 3, l’effectif cumulé correspond à la somme des effectifs partiels pour les réponses 1, 2, et 3. Le calcul des effectifs cumulés n’a de sens que lorsqu’il existe effectivement une relation d’ordre entre les modalités de la VD, et cette sommation doit s’effectuer dans l’ordre défini des modalités. Cela concerne donc seulement les variables ordinales et numériques. La représentation graphique des effectifs cumulés permet d’apprécier l’allure générale de la progression. Page 11 sur 18 90 Effectifs cumulés 80 70 60 50 40 30 20 10 0 1 2 3 4 5 6 7 Degré de satisfaction Graphe 4. Distribution des effectifs cumulés en fonction du degré de satisfaction. Ce graphe montre bien comment les effectifs se cumulent progressivement pour atteindre l’effectif total N (ce serait 1 si les proportions cumulées étaient représentées, et 100 dans le cas de pourcentages cumulés). 4.2.3. Les histogrammes A première vue, un histogramme paraît très proche d’un diagramme en barres. Cependant, dans le cas d’un histogramme, les barres sont accolées pour souligner le caractère régulier des modalités de la VD (l’intervalle entre les modalités est mesurable et régulier). Ce type de graphe est donc utilisé avec des variables numériques : il tire parti du fait que, avec ce type d’échelle, la VD se déploie sur un axe en intervalles réguliers. Le Graphe 5 ci-dessous est un exemple d’histogramme. C’est ici une distribution d’effectifs pour 20 participants dont on a mesuré le QI (le QI moyen de la population générale est de 100). Page 12 sur 18 Effectif QI Graphe 5. Distribution des effectifs de participants en fonction du QI. Cependant, la construction d’un histogramme n’est pas toujours évidente. Les données numériques doivent répondre à une exigence : elles doivent être réparties en classes (une classe est un intervalle avec une valeur minimum et une valeur maximum, ci-dessus [110 ; 119] et [120 ; 129] constituent deux classes). Par exemple, des chercheurs ont mesuré les seuils d'identification (vitesse à laquelle on identifie un stimulus en millisecondes) pour des mots simples auprès de 50 participants. Les résultats sont les suivants : participant 1 2 3 4 5 6 7 8 9 10 Seuil d'identification 19 36 27 31 15 29 21 33 27 24 participant 11 12 13 14 15 16 17 18 19 20 Seuil d'identification 23 18 22 32 24 21 25 27 30 27 Page 13 sur 18 participant 21 22 23 24 25 26 27 28 29 30 Seuil d'identification 23 20 17 31 28 23 25 20 15 35 participant 31 32 33 34 35 36 37 38 39 40 Seuil d'identification 24 21 30 16 34 24 29 32 27 21 participant 41 42 43 44 45 46 47 48 49 50 Seuil d'identification 19 15 18 20 23 17 25 28 24 27 Tableau 8. Protocole des seuils d’identification des mots Avec de telles données, on voit peu d'intérêt à représenter absolument toutes les valeurs observées sur un graphe de distribution (cela impliquerait par exemple de représenter l’effectif pour 19 msec, celui pour 20, celui pour 21 etc. : les barres seraient trop nombreuses et les effectifs tous très bas voire nuls). C'est pourquoi on établit des classes [min ; max]. L’histogramme présentera l’effectif observé pour chaque classe. Voici la procédure : 1- nombre de classes (= nombre de colonnes dans l’histogramme) L’usage est un minimum de 5 classes et un maximum de 15, donc 10 en moyenne. Cependant, on préfère un nombre de classes impair afin d’avoir une classe centrale. Prenons 11 ici (mais 9 était possible). Nous avons donc 11 classes d’intervalle pour partager l’axe des abscisses. 2- intervalle de variation : combien de valeurs (modalités) peut prendre la VD ? (= nombre de modalités) 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 + 1 = 36 − 15 + 1 = 22 3- nombre de modalités par classe : 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠 𝑝𝑎𝑟 𝑐𝑙𝑎𝑠𝑠𝑒 = 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠 22 = =2 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠 11 4- détermination des classes : La première : on part du minimum = 15, on prend 2 modalités (puisque 2 modalités par classe), c’est donc [15 ; 16], Page 14 sur 18 Ensuite [17 ; 18], etc. Ensuite, on compte le nombre d’observations (l’effectif) dans chaque classe, ce qui nous donne le tableau de distribution suivant : Classe 1 2 3 4 5 6 Intervalle [15-16] [17-18] [19-20] [21-22] [23-24] [25-26] Effectif 4 4 6 5 9 3 Classe 7 8 9 10 11 Intervalle [27-28] [29-30] [31-32] [33-34] [35-36] Effectif 8 4 3 2 2 Tableau 9. Distribution des effectifs de participants en fonction du seuil d’identification. Graphiquement, on représente ces données grâce à un histogramme. Les colonnes doivent être accolées (pas de blanc entre) pour souligner le caractère régulier de la VD (échelle numérique). Effectifs partiels 10 9 [15-16] 8 [17-18] 7 [19-20] 6 [21-22] 5 [23-24] 4 [25-26] 3 [27-28] 2 [29-30] 1 [31-32] [33-34] 0 1 [35-36] Classes Seuil d’identification (msec) Graphe 6. Effectifs partiels de participants en fonction du seuil d’identification (msec) Note sur cette procédure systématique pour déterminer les classes d’intervalle : Page 15 sur 18 Celle-ci est un peu longue et sans grand intérêt. Vous ne serez donc pas interrogés dessus à l’examen, il est inutile de l’apprendre par cœur. Il était important cependant d’en avoir une trace : vous aurez peut-être un jour des données à traiter de cette façon. En pratique, le nombre de classes retenu pour un histogramme dépend vraiment des données qu’on examine, sachant qu’une distribution est un premier résumé des données brutes, donc qu’une distribution a perdu de l’information par rapport à celles-ci (toute la question est de savoir si cette information était utile ou le contraire). Plus on utilise de classes, plus on retient d’information des données brutes, mais cette information est moins synthétique (moins lisible). Avec moins de classes, on gardera moins d’information des données brutes, mais celle-ci sera plus synthétique (plus lisible). Le choix final du nombre de classes est un compromis entre perte d’information et lisibilité. En gros, il faut que l’information importante soit toujours lisible sur la distribution. 4.2.4. Résumé d’utilisation des graphes de distribution en fonction du niveau de la VD En fonction du niveau de la VD, on peut utiliser les graphes de distribution suivants (en rouge figure la préférence) : Nominal Ordinal Numérique Diagramme X Courbe X X X X Histogramme X 4.3. La distribution normale La voici en bleu (VD = note à un examen entre 0 et 20 ; N = 40) : Nombre d'etudiants Histogramme des effectifs d'etudiants en fonction des notes 11 10 9 8 7 6 5 4 3 2 1 0 7 8 9 10 11 Note 12 13 14 15 16 Page 16 sur 18 Cette courbe est aussi appelée loi normale, courbe de Gauss, ou gaussienne. C’est un type particulier de courbe en cloche : les valeurs le plus souvent observées sont les valeurs centrales tandis que les valeurs extrêmes (ici très mauvaise note ou très bonne note) sont plus rares. C’est de plus une courbe symétrique (on a la même chose à gauche et à droite du trait vert). D’une distribution discrète (c'est-à-dire non-continue : les barres bleues), on peut passer à une courbe continue (en rouge). Strictement, c’est cette courbe continue qui correspond à la distribution normale. Pour les matheux, je donne ici son équation (établie par Gauss) [mais cela n’est pas au programme ☺] : − 1 f (x ) = e s 2 ( x − m )2 2s2 où x = VD, m = moyenne et s = écart-type [à venir] Pour les mêmes, les effectifs cumulés peuvent s’écrire (et c’est vrai pour n’importe quelle distribution) : effectif cumulé (x ) = x f ( y)dy − Fin de la parenthèse. Cette distribution est particulièrement intéressante en psychologie, pour au moins trois raisons. 1/ La plupart des phénomènes naturels suivent une distribution normale, qu’ils soient biologiques, physiologiques, ou psychiques. Par exemple, prenez un champ de maïs arrivé à maturité. Comme vous avez du temps, vous mesurez la longueur de chaque épi. Vous pouvez établir la distribution des longueurs mesurées, vous trouverez qu’elle correspond à la loi normale. C’est aussi le cas de la taille des individus (d’un sexe donné), et de très nombreuses VD utilisées en psychologie. Les tests sont des tâches expérimentales conçues pour suivre une distribution normale. C’est donc le cas du test de QI (le test le plus connu) : si le N est suffisamment grand, le QI suit une distribution normale. 2/ Cette distribution a des propriétés mathématiques qu’on va pouvoir exploiter [en faisant le moins de maths possible]. Page 17 sur 18 3/ Si vous obtenez des données qui suivent la loi normale (c’est presque toujours le cas), parmi les tests de statistiques inférentielles, vous pouvez utiliser les tests dits paramétriques (t, F,… au programme de la L2). Sinon, vous pouvez utiliser les tests dit non-paramétriques, comme le ꭓ2 (troisième lettre de l’alphabet grec, prononcer Khi2). Ce test sera vu à la fin du programme cette année. Il est donc important, quand vous avez la distribution de vos données (la première étape de leur analyse), de déterminer si elle correspond à la loi normale ou pas. Le test du ꭓ2 nous permettra justement de comparer deux distributions (de dire si elles sont similaires ou différentes, donc par exemple de dire si une distribution observée de données est assimilable à la loi normale). Page 18 sur 18