Chapitre 7 : Les Sons de la Parole - PDF

Summary

This document is a chapter about the perception of speech sounds, specifically focusing on the cognitive and neuropsychological aspects. It explores the physical nature of sound waves, anatomical details of the auditory system, and the characteristics of speech sounds (vowels and consonants). It also discusses theories of phoneme perception, including the motor theory.

Full Transcript

CHAPITRE 7 LES SONS DE LA PAROLE : PERCEPTION PSYCE102 : Psychologie cognitive, neuropsychologie et psycholinguistique I. Prs Fabienne Chetail, Axelle Calcus, et Anezka Smejkalova 2024-2025 ...

CHAPITRE 7 LES SONS DE LA PAROLE : PERCEPTION PSYCE102 : Psychologie cognitive, neuropsychologie et psycholinguistique I. Prs Fabienne Chetail, Axelle Calcus, et Anezka Smejkalova 2024-2025 WARNING Les matériaux de ce cours (documents, enregistrements, etc.) sont protégés par le droit d'auteur. IIs sont exclusivement destinés à un usage privé et académique. Toute reproduction ou diffusion est strictement interdite sans l'accord du titulaire. Le non- respect de ces règles est passible de sanctions disciplinaires, voire en outre judiciaires. Ó Anezka Smejkalova 2024 2 TABLE DE MATIERES – SECTION 1 – INTRODUCTION......................................................................... 4 – SECTION 2 – DU SON AU CERVEAU................................................................ 6 2.1. Le son est une onde............................................................................................................ 6 2.2. Est-ce qu’on peut entendre toutes les fréquences ?....................................................... 8 2.3. Différents types de sons..................................................................................................... 9 2.4. Quelques notions d’anatomie.......................................................................................... 12 2.5. Quels sons l’oreille humaine peut-elle capter ?............................................................ 14 – SECTION 3 – LES SONS DE LA PAROLE : ARTICULATION ET ACOUSTIQUE. 16 3.1. Voyelles............................................................................................................................... 17 3.2. Consonnes......................................................................................................................... 18 3.3. (Co-)Articulation des phonèmes à l’intérieur de mots et de phrases......................... 19 – SECTION 4 – LA PERCEPTION DE LA PAROLE.............................................. 21 4.1. La théorie des traits pour expliquer la perception des phonèmes ?.......................... 21 4.2. La perception catégorielle............................................................................................... 22 4.3. L’intégration audio-visuelle de l’information phonétique............................................ 25 – SECTION 5 – LA THÉORIE D’UN MODULE SPÉCIALISÉ : LA THÉORIE MOTRICE DE LA PERCEPTION DE LA PAROLE................................................ 28 5.1. Comment notre cerveau produit un mouvement ?...................................................... 29 5.2. Neurones miroirs............................................................................................................... 29 5.3. Activation des régions motrices pendant des tâches de perception de syllabes.... 30 5.4. Influence de l’activation motrice sur la perception....................................................... 31 Ó Anezka Smejkalova 2024 3 – SECTION 1 – INTRODUCTION Comme on l'a vu dans le chapitre précédent, le langage humain repose majoritairement sur l'utilisation du canal vocal-auditif. Lorsqu’on souhaite communiquer quelque chose à quelqu'un, on ouvre la bouche, on articule le message, et notre voix permet d’amener le message jusqu'aux oreilles de notre interlocuteur. Cette idée fait directement écho au schéma de communication présenté sur la Figure 7.1. Dans ce chapitre, nous aborderons les processus liés à la réception et aux aspects élémentaires de la perception de la parole : la perception des phonèmes. Figure 7.1. Le schéma de communication, initialement proposé par F. de Saussure. Ó Anezka Smejkalova 2024 4 Ce chapitre est organisé en quatre sections. Dans la section 1, nous tenterons de comprendre les aspects sensoriels de la perception de la parole. Comme pour la perception visuelle (chapitre 2), nous nous pencherons sur les caractéristiques physiques des sons ainsi que sur la physiologie du système auditif. Dans la section 2, nous examinerons plus concrètement les caractéristiques acoustiques (sonores) des sons de la parole, et la manière dont ces caractéristiques dépendent de l'articulation des phonèmes. L’objectif de la section 3 sera de comprendre en quoi la perception des phonèmes est spéciale, et quelles sont ses caractéristiques. Enfin, dans la section 4, nous étudierons une théorie neuropsychologique de la perception des phonèmes : la théorie motrice de la perception de la parole. Proposition d’activité Dans cette introduction, vous avez pu rencontrer un certain nombre de ‘mots compliqués’. Avez-vous tout compris ? Si ce n’est pas le cas, recherchez sur l’internet la signification de tous les mots que vous n’avez pas compris. Relisez l’introduction à nouveau. Avez-vous mieux compris cette-fois-ci ? Ó Anezka Smejkalova 2024 5 – SECTION 2 – DU SON AU CERVEAU Si on se rapporte aux schéma présenté sur la Figure 7.1., les processus qui vont nous intéresser maintenant se déroulent essentiellement au niveau de l’étape 4 : le message (signal sonore) porté par l’air est reçu par nos oreilles. En réalité, les structures visibles qu’on appelle de façon naïve « oreilles » font partie d’un système plus large, le système auditif, dont une grande partie est cachée dans la boite crânienne. Et ce sont les structures plus internes de ce système qui contiennent les cellules sensorielles de l’audition, lesquelles sont capables de traduire le signal sonore qui vient de notre environnement en un influx nerveux. Celui-ci pourra être acheminé vers le cerveau, où le percept auditif sera construit. Pour bien comprendre comment notre système cognitif traite les sons de la parole, il est nécessaire de comprendre les spécificités du signal sonore au niveau physique. De la même façon, il est primordial en neurolinguistique d’avoir une idée globale de l’organisation physiologique du système auditif, car la perception du langage dépend largement de notre physiologie, particulièrement adaptée à la réception sensorielle du langage. 2.1. Le son est une onde Les sons sont des vibrations, des perturbations locales de la pression de l’air, qui se propagent de proche en proche. Ces vibrations peuvent être d’origines différentes, mais, de façon générale, on peut dire qu’un objet qui se déplace dans l’espace produira de telles vibrations. Plus concrètement, le mouvement engendre une oscillation des molécules d’air. Ces molécules, oscillantes, vont heurter et mettre en mouvement les molécules à proximité, ce qui va causer une propagation de ces oscillations dans l’air. Ó Anezka Smejkalova 2024 6 Ce phénomène est similaire à ce qui se passe quand on jette un caillou dans l’eau. La surface, jusqu’ici relativement calme, est parcourue de vaguelettes qui se propagent à partir du lieu de l’impact. Le Figure 7.2. Illustre la propagation d’un son (miaulement de chat) dans l’air. Bien entendu, les ondes sonores ne sont pas visibles à l’œil nu. La portion A de l’image représente un agrandissement de l’onde sonore : les points gris correspondent aux molécules d’air. Par endroits, ces molécules sont très concentrées (compression), et à d’autres endroits, elles se font plus rares (dilatation). La portion B de l’image est une représentation graphique de ce phénomène : un son peut être visualisé comme une sinusoïde. Les pics qui pointent vers le haut correspondent alors aux moments de compression, et les pics qui pointent vers le bas correspondent aux moments de dilatation. Figure 7.2. Illustration de la propagation d’un son dans l’air. Un son peut donc être assimilé à une onde. Vous avez déjà entendu parler d’ondes dans le chapitre 2 sur la perception visuelle. Sachez donc qu’il s’agit ici d’ondes un peu différentes : les ondes qui donnent lieu à la perception visuelle sont des ondes électromagnétique, les ondes qui donnent lieu à la perception auditive sont des ondes mécaniques. Un son peut être visualisé avec un oscillogramme. Un oscillogramme représente les modifications de l’amplitude de l’énergie en fonction du temps. L’énergie, dans le cas où l’on parle d’ondes sonores, fait référence à la force des vibrations des molécules d’air, et donc aux successions de compressions et dilatations. La Figure 7.3. schématise un graphique de type oscillogramme, et illustre les principaux paramètres qui vont nous intéresser pour décrire une onde sonore. Ó Anezka Smejkalova 2024 7 Figure 7.3. Schématisation d’un oscillogramme d’une onde sonore et de ses caractéristiques Sur un oscillogramme, l’amplitude sera donnée sur l’axe des ordonnées. Elle détermine l’intensité des sons qui sont perçus. Plus l’amplitude est élevée, plus la sensation (= l’intensité perçue) sera forte. Le plus souvent, l’amplitude sera exprimée en décibels (qu’on abrège par dB). Sur le graphique, l’information sur l’amplitude correspond à la distance entre l’axe des abscisses et le pique de la sinusoïde. L’axe des abscisses donne l’information sur le temps, mesuré en secondes. La fréquence est un autre paramètre important permettant de décrire une onde sonore, et elle dépend directement du temps. Concrètement, la fréquence correspond au nombre de cycles entiers (un cycle = une succession d’une compression et d’une dilatation, ou vice-versa) qui tiennent en 1 seconde. Comme vous pouvez voir sur la Figure 7.3., un cycle commence à un point de la sinusoïde et se termine lorsque la sinusoïde revient exactement au même endroit en termes d’intensité. L’unité qu’on utilise pour donner une valeur standardisée de la fréquence s’appelle Hertz (qu’on abrège par Hz). 1 Hz correspond à 1 cycle par seconde. La fréquence est une caractéristique essentielle car elle détermine la hauteur du son que vous allez percevoir. Plus la fréquence est élevée, plus le son sera perçu comme étant aigu. Ceci est illustré sur la Figure 7.4. Proposition d’activité Sur base de l’explication donnée dans le paragraphe précédent, quelle serait la fréquence de l’onde représentée sur la Figure 7.3. ? 2.2. Est-ce qu’on peut entendre toutes les fréquences ? Le système auditif humain n’est pas adapté pour entendre toutes les longueurs d’onde (j’espère que ça vous fait penser à ce que vous avez appris sur la perception visuelle dans le chapitre 2). Ainsi, on n’entend ni les sons plus graves que 20 Hz (infrasons), ni les sons plus aigus qu’environ 16 000- 20 000 Hz (ultrasons). Cette sensibilité évolue également avec l’âge : en vieillissant, nous perdons progressivement nos capacités à percevoir les sons aigus. Il va sans dire que les sons qu’on produit en parlant se situent dans cet intervalle. Ó Anezka Smejkalova 2024 8 Figure 7.4. Onde sonore selon la fréquence et selon la hauteur des sons perceptibles (ou pas). 2.3. Différents types de sons Une autre caractéristique qui va déterminer la nature du son est la forme que l’onde va prendre. La Figure 7.3. représente une simple onde sinusoïdale, qui correspond à ce qu’on appelle un son pur. Les sons purs sont composés d’une fréquence unique. Ce type de sons n’existe pas dans la nature, mais on peut en produire artificiellement (avec un synthétiseur, c’est très facile, mais un diapason produit également un son pur). La plupart des sons qui existent autour de nous sont des sons complexes. Parmi les sons complexes, on peut distinguer les sons complexes périodiques (qu’on appelle également les sons harmoniques), et les sons complexes non-périodiques (qu’on appelle également les bruits). La différence entre les premiers et les seconds est la présence d’un motif régulier qui se répète pour les sons harmoniques, et son absence pour les bruits. Regardons cela sur la Figure 7.5. Figure 7.5. A : onde sinusoïdale correspondant à un son pur. B : onde complexe correspondant à un son harmonique. C et D : ondes complexes correspondant à des bruits. Si un son pur est composé d’une fréquence unique (par exemple 1 Hz), un son harmonique sera toujours composé de plusieurs fréquences. Pour mieux comprendre cela, il faut introduire une autre forme de visualisation de l’information sonore, qu’on appelle parfois le spectre. Il s’agit d’une visualisation de l’amplitude (en ordonnée) en fonction de la fréquence (en abscisse), comme illustré sur la Figure 7.6. Ó Anezka Smejkalova 2024 9 Figure 7.6. Une autre façon de décrire visuellement une onde sonore. À gauche – un son pur qui est composé d’une unique fréquence ; au centre – un son harmonique qui est composé de plusieurs fréquences, qui sont des multiples entiers de la fréquence la plus basse ; à droite – un bruit qui est composé de plusieurs fréquences, sans régularité. Pour mieux comprendre quel est le rapport entre un oscillogramme et un spectre, il vaut mieux… regarder la Figure 7.7. Figure 7.7. Sur un graphique en deux dimensions, la même onde sonore peut être décrite de deux façons différentes : soit sous forme d’un oscillogramme (amplitude en fonction du temps), soit sous forme d’un spectre (amplitude en fonction de la fréquence à un instant T). Ó Anezka Smejkalova 2024 10 La procédure mathématique qui permet de décomposer une onde complexe en une somme de sinusoïdes simples s’appelle la transformée de Fourier, mais la connaissance de celle-ci dépasse largement ce cours. Ce qu’il faut retenir ici, c’est qu’une onde complexe est toujours composée de plusieurs ondes plus simples. Dans le cas des sons harmoniques, on va appeler la fréquence la plus basse la fréquence fondamentale (en rouge sur la Figure 7.6.), et les autres fréquences composant le son harmonique, des harmoniques (qui sont des multiples entiers de la fréquence fondamentale : le double, le triple, etc., en vert sur la Figure 7.6.). La fréquence fondamentale détermine la hauteur perçue, les harmoniques déterminent le timbre perçu (ensemble des caractéristiques spécifiques à une source donnée – une voix, le son d’un instrument de musique…). Au niveau des sons du langage, on peut considérer que les voyelles (par ex., /a/, /e/, /y/) sont des sons complexes harmoniques. Les bruits peuvent aussi être mathématiquement décomposés en une somme de sinusoïdes simples. La différence est que l’on ne va pas trouver cette structure régulière des fréquences qui composent le son complexe. À nouveau, vous pouvez voir cela sur la Figure 7.6. Au niveau des sons du langage, les consones (par ex., /p/, /b/, /t/) correspondent à des bruits. Avant de passer à la suite, il faut introduire une troisième façon de visualiser les sons, qui sera particulièrement importante lorsqu’on s’intéressera au langage. Il s’agit du spectrogramme (ou anciennement sonagramme). Si l’oscillogramme permet de montrer l’évolution de l’amplitude en fonction du temps, et le spectre permet de montrer l’amplitude sur différentes bandes de fréquence, l’intérêt du spectrogramme est qu’il intègre ces trois dimensions (amplitude, fréquence, temps) sur un seul graphique. La Figure 7.8. montre un spectrogramme qui correspond à la lecture des deux premières phrases de ce paragraphe. Comme il s’agit d’un graphique complexe, on va s’arrêter pour comprendre ce qu’on regarde. Sur l’axe des ordonnées, on trouve les fréquences. Il faut s’imaginer que le graphique est composé de multiples lignes horizontales très fines, et que chaque ligne correspond à une bande de fréquence. L’axe des abscisses représente l’évolution du signal de parole en fonction du temps. Enfin, le code couleur donne l’information sur l’amplitude : elle est plus forte lorsqu’on va vers le rouge, et plus faible vers le bleu. Figure 7.8. Exemple d’un spectrogramme. Ó Anezka Smejkalova 2024 11 À ce stade, nous commençons à avoir une bonne vision de ce qu’on entend par « signal sonore ». Il est donc grand temps d’aller voir de plus près quel est l’équipement physiologique qui nous permet de recevoir ces stimulations. Proposition d’activité Pour comprendre comment fonctionne un spectrogramme, le mieux, c’est d’expérimenter sur soi. Vous pouvez rechercher une application pour votre téléphone qui permet de visualiser un spectrogramme de la parole en temps réel. Il y en a un grand nombre. Selon le modèle de votre téléphone, vous pouvez essayer par exemple SpectrumView ou SpecStream (les deux applications sont gratuites dans leurs versions basiques). Jouez avec votre voix, poussez les sons aigus ou graves, essayez de parler, prononcez les différentes voyelles et observez les modifications du spectrogramme en fonction des différents sons. 2.4. Quelques notions d’anatomie Pour que notre cerveau puisse construire la représentation mentale d’un son, il faut un mécanisme pour transformer la stimulation sonore en un influx nerveux. Ce mécanisme repose sur l’activité de cellules réceptrices spécialisées, qui font partie d’un système plus complexe – le système auditif (Figure 7.9.). Figure 7.9. Aperçu du système auditif. Classiquement, on peut diviser le système auditif en 3 parties : Oreille externe (Figure 7.10.A, composée principalement du pavillon et du conduit auditif) Oreille moyenne (Figure 7.10.B, composée principalement du tympan et des osselets) Oreille interne (Figure 7.10.C, composée principalement de la cochlée et du vestibule) Ó Anezka Smejkalova 2024 12 Figure 7.10. Oreille externe (A), oreille moyenne (B), oreille interne (C) et cochlée avec la membrane basilaire (D) (source). Lorsque le son atteint l’oreille, il est tout d’abord reçu au niveau de l’oreille externe. Ici, la forme particulière du pavillon permet d’amplifier le son et de l’acheminer via le conduit auditif externe jusqu’au tympan. Lorsque les vibrations du son atteignent le tympan, celui-ci se met à vibrer. Pour mieux comprendre cela, vous pouvez imaginer que le tympan fonctionne un peu comme la membrane d’un tambour. De l’autre côté, le tympan est en contact direct avec les osselets. Les osselets sont trois petits os (les plus petits du corps humain) : marteau, enclume et étrier. Le marteau est relié directement au tympan, l’enclume est reliée au marteau et à l’étrier via deux articulations. L’étrier est en contact avec l’oreille interne au niveau de la fenêtre ovale (voir la Figure 7.10.D). Les osselets jouent un rôle essentiel à deux niveaux. Premièrement, ils permettent d’amplifier le son. Deuxièmement, il permettent de transmettre les sons entre deux milieux : le milieu aérien de l’oreille externe, et le milieu aqueux de l’oreille interne (sans entrer dans les détails, sans l’action mécanique des osselets, cette transmission serait impossible). L’action de l’étrier sur la fenêtre ovale met en mouvement le liquide à l’intérieur de la cochlée, et les vibrations vont se propager dans ce milieu jusqu’à rentrer en contact avec la membrane basilaire (voire la Figure 7.10.D), qui contient les cellules réceptrices de l’audition, les cellules ciliées. Les axones des cellules ciliées sont connectées aux cellules du ganglion spiral dont les axones forment le nerf auditif, qui va acheminer l’influx nerveux vers les régions auditives du cortex cérébral, qui se situent au niveau du lobe temporal. Comme illustré sur la Figure 7.11., les cortex auditifs primaire (A1) et secondaire (A2) se situent dans le pli qui sépare le lobe temporal des lobes frontal (à l’avant du cerveau) et pariétal (à l’arrière du cerveau). Pour y accéder lors d’une intervention chirurgicale, il faut écarter le pli. Ó Anezka Smejkalova 2024 13 Figure 7.11. Cortex auditif primaire est organisé de façon tonotopique. En étudiant attentivement la Figure 7.10.D et la Figure 7.11., on peut constater une chose très intéressante : que ce soit au niveau de la membrane basilaire de la cochlée, ou au niveau du cortex auditif primaire, on va trouver une organisation particulière de l’information. Les cellules qui se trouvent physiquement proches vont traiter des sons similaires (du point de vue des fréquences). On parle alors d’une organisation tonotopique. 2.5. Quels sons l’oreille humaine peut-elle capter ? Dans les paragraphes précédents, vous avez pu remarquer que le système auditif dispose de plusieurs mécanismes physiologiques d’amplification du son. Cela a pour conséquence que notre oreille est un organe très sensible. La Figure 7.12.A illustre cette sensibilité. L’axe des ordonnées nous donne ici l’échelle de l’intensité (mesurée en dB). Plus on est haut sur l’axe, plus le son est fort. L’axe des abscisses nous donne les fréquences. La ligne noire qui relie les points 1 et 2 nous donne le seuil d’audibilité. Ce qui se trouve en dessous de ce seuil n’est pas audible pour l’oreille humaine, et ce qui se trouve au-dessus est audible. Un premier constat qu’on peut faire est que ce seuil n’est pas le même pour toutes les fréquences : pour entendre des sons très bas ou très haut, il faut plus d’intensité que pour entendre des sons qui se situent entre 1000 et 4000 Hz. Vous remarquerez également que ce qu’on appelle la zone d’émission de la parole correspond assez bien aux fréquences auxquelles on est le plus sensibles (et donc on a besoin de moins de dB pour entendre). Conclusion ? Nos oreilles sont particulièrement adaptées pour entendre les sons du langage. D’un autre côté, cette sensibilité représente également un inconvénient. Si les sons sont trop forts, les recevoir devient une expérience physiquement douloureuse qui peut aboutir à la destruction des tympans et, dans les cas les plus graves, à la destruction des cellules ciliées. Une fois que les cellules ciliées sont détruites, on perd définitivement la capacité à entendre les fréquences correspondantes, car elles ne se régénèrent pas (c’est d’ailleurs pour cela que parfois votre téléphone vous envoie des notifications pour vous recommander de baisser le son en utilisant des écouteurs). Ó Anezka Smejkalova 2024 14 Figure 7.12. Les seuils auditifs ne sont pas les mêmes selon la bande de fréquence (A). Échelle du bruit (B). Ó Anezka Smejkalova 2024 15 – SECTION 3 – LES SONS DE LA PAROLE : ARTICULATION ET ACOUSTIQUE Commençons cette fois-ci par la conclusion : un des messages principaux de ce chapitre est qu’on ne peut pas vraiment comprendre les mécanismes de la perception de la parole indépendamment de la production de la parole. Il est donc nécessaire d’introduire une description sommaire des mécanismes de l’articulation. D’un point de vue articulatoire, les sons de la parole dépendent de trois systèmes (Figure 7.13.) : A. L’appareil respiratoire (les poumons et la trachée) B. Le larynx et les cordes vocales C. Les cavités buccale et nasale Figure 7.13. D’un point de vue articulatoire, les sons de la parole dépendent de l’appareil respiratoire, du larynx et des cordes vocales et des cavités buccale et nasale. On parle en expirant : pour qu’un son puisse sortir de notre bouche, il faut que les poumons émettent de l’air. Cet air va passer par la trachée et à travers les cordes vocales. Le passage par les cordes vocales va engendrer une vibration de l’air (si les cordes vocales sont serrées) et, par conséquent, permettre l’émission du son. Si les cordes vocales restent relâchées, l’air sera expiré en silence (ou bien sortir sous forme de chuchotement). Après le passage par les cordes vocales, l’air Ó Anezka Smejkalova 2024 16 va atteindre les cavités buccale et/ou nasale, qui vont servir de caisse de résonnance. A ce niveau- là, l’air va également rencontrer certains ‘obstacles’ : les articulateurs (la luette, le palais, la langue, les dents, ou encore les lèvres). Le positionnement précis de ces articulateurs permet de moduler le son qui va effectivement sortir de notre bouche ; ils nous permettent de prononcer (articuler) différents sons de la parole : les phonèmes. D’un point de vue acoustique et articulatoire, on peut distinguer deux catégories de phonèmes : les voyelles et les consonnes. 3.1. Voyelles On produit les voyelles par la vibration des cordes vocales. Il est impossible de prononcer une voyelle si les cordes vocales sont complétement relâchées. Ce qui va distinguer les voyelles entre elles sera la position spécifique des articulateurs. À ce titre, les dimensions principales permettant l’articulation des différentes voyelles sont : l’ouverture de la bouche, la position de la langue, l’arrondissement des lèvres, et la nasalité (Figure 7.14.) Figure 7.14. « Triangle vocalique » - outil visuel permettant de situer toutes les voyelles dans l’espace, organisé selon ces quatre dimensions. Les caractéristiques articulatoires des voyelles sont en lien direct avec leurs caractéristiques acoustiques (sonores). On a pu démontrer cela en visualisant les sons spécifiques aux voyelles avec un spectrogramme. On a constaté que la forme donnée au canal vocal par les articulateurs détermine directement la distribution d’énergie sur différentes bandes de fréquences (Figure 7.15.). Ainsi, on se rend compte que pour chaque voyelle, l’énergie acoustique se localise autour de bandes de fréquences particulières et stables. On appelle ces bandes stables les formants. Les fréquences du premier et du deuxième formants suffisent pour identifier les voyelles du français. Le premier formant peut notamment être mis en lien direct avec le degré d’ouverture des lèvres (la fréquence augmente graduellement de /i/ à /a/ et diminue ensuite de /a/ à /u/). Figure 7.15. Le spectrogramme des voyelles du français. Ó Anezka Smejkalova 2024 17 3.2. Consonnes Les consonnes résultent typiquement d’une fermeture à un endroit particulier du canal vocal. Pour décrire les consonnes d’un point de vue articulatoire, il faut spécifier : Le mode d’articulation, qui correspond au type de fermeture, laquelle peut être partielle (on parle alors de constriction/friction) ou totale (on parle alors d’occlusion). Lorsque vous prononcez une consonne fricative, l’air peut continuer à s’échapper de votre bouche, vous pouvez allonger le temps de prononciation (par ex., /s/). Lorsque vous prononcez une consonne occlusive, l’air est d’abord complètement bloqué par l’articulateur. La libération de l’air provoquera une petite « explosion » (par ex., /p/). Le lieu de de cette fermeture, on va parler du point d’articulation (lèvres, palais…). L’activité des cordes vocales (elles vibrent ou pas), on va parler du voisement. Le tableau 7.16 reprend les consonnes du français selon ces trois dimensions. Figure 7.16. Caractéristiques articulatoires des consonnes du français selon les trois dimensions principales : le mode d’articulation, le point d’articulation, et le voisement. Labial – implique les lèvres. Alvéolaire – implique l’espace directement derrière les dents. Palatal/vélaire – se situe plus loin dans la bouche au niveau du palais et du voile du palais. Proposition d’activité Pour mieux comprendre ces dimensions essayez d’étudier le tableau sur la Figure 7.16. tout en expérimentant sur vous-même. Prononcez les différentes consonnes en essayant de faire attention à ce qui se passe dans votre bouche : est-ce que la fermeture est totale (et donne lieu à une explosion) ou partielle (l’air peut continuer à sortir de votre bouche alors que vous prononcez la consonne)? A quel niveau de votre bouche la fermeture a-t-elle lieu ? Au niveau des lèvres ? Des dents ? Du palais ? Est-ce que vous ressentez la vibration dans la cavité nasale ? Est-ce que vos cordes vocales vibrent ? Pour ce dernier point – vous pouvez ressentir la vibration des cordes vocales en posant votre main sur votre gorge. Prononcez ensuite le son /p/ qui est une consonne non-voisée, sans ajouter de voyelle derrière. Maintenant, prononcez le son /b/qui est une consonne voisée (= les cordes vocales vibrent). Sentez-vous la différence ? Décrire les consonnes d’un point de vue acoustique s’avère très compliqué, particulièrement pour les consonnes occlusives. Nous allons voir pourquoi dans les prochains paragraphes. Ó Anezka Smejkalova 2024 18 3.3. (Co-)Articulation des phonèmes à l’intérieur de mots et de phrases Les phonèmes sont prononcés quasi-systématiquement à l’intérieur de mots et de phrases. Sur la Figure 7.17., vous pouvez voir une représentation graphique du son qui correspond à la phrase « Si ça souffle sous les arbres, pas de graines pour les pies ». Proposition d’activité Avant de continuer la lecture, regardez attentivement la Figure 7.17. et essayez de répondre aux questions suivantes. Comment s’appelle le type de représentation graphique en haut ? Et en bas ? Quelles informations nous pouvons y lire ? Sur quelles axes ? Figure 7.17. Oscillogramme (en haut) et spectrogramme (en bas) correspondant à la phrase « Si ça souffle sous les arbres, pas de graines pour les pies ». En étudiant ces deux graphiques, nous pouvons remarquer plusieurs choses : D’un point de vue sonore, il n’y a (presque) pas d’interruptions dans le flux de la parole. En général, il n’y a aucune séparations sonores entre les mots, et il n’y en a pas non plus entre les phonèmes successifs qui forment les mots. Au début de la phrase (‘si ça souffle sous’), il est possible de distinguer l’alternance de fréquences et d’énergie entre chaque /s/ et chaque voyelle successive, pour lesquelles les formants sont visibles. Seulement, la distinction consonne-voyelle au sein d’un spectrogramme n’est pas toujours faisable, comme l’illustre l’absence de telles séparations dans le reste de la phrase. Une observation qui pourrait échapper à un œil inhabitué à ces représentations graphiques : pour les quatre/s/qui se suivent au début des mots, le spectre semble être un peu différent à chaque fois. Pour cause, il contient à chaque fois les formants de la voyelle qui suit. Ó Anezka Smejkalova 2024 19 Enfin, si on se concentre uniquement sur le mot ‘pies’ on n’observe aucune discontinuité. Impossible d’identifier une partie qui correspondrait à la consonne /p/ dans /pi/. Ces remarques illustrent une propriété essentielle de la transmission de la parole : les phonèmes successifs ne sont pas produits séparément, ni même successivement (l’un après l’autre). On appelle ce phénomène la coarticulation. Sur le plan de la production, la coarticulation correspond au fait que les gestes requis pour produire des phonèmes successifs se superposent temporellement. Sur le plan réceptif, la conséquence de la coarticulation est la transmission en parallèle des phonèmes. Essayons de creuser un peu cette définition pour bien comprendre le phénomène de coarticulation. Le geste requis pour produire un phonème veut dire la configuration de tous les articulateurs nécessaires pour produire un phonème, ou, encore plus simplement : la forme que votre bouche et tous les articulateurs qui se trouvent dedans prennent pour prononcer un phonème donné. Si un mot est composé de trois phonèmes, par exemple le mot verre (prononcé /vɛʁ/), vous devez donc produire trois gestes articulatoires, qui correspondent aux trois phonèmes successifs, les phonèmes qui se suivent. Ces trois gestes pour produire les phonèmes /v/+/ɛ/+/ʁ/ se superposent temporellement, ce qui veut dire que vous produisez en même temps (au moins partiellement) les sons qui se suivent. Concrètement, le geste articulatoire que vous faites pour produire le phonème /v/ sera influencé par le fait que le /v/ est suivi par la voyelle /ɛ/. Le geste articulatoire pour produire la voyelle /ɛ/ sera influencé par le fait que celle-ci est précédée par /v/ et suivie par /ʁ/. Essayez de tester cela sur vous, devant un miroir. Prononcez le mot verre et le mot vous. Vous pouvez voir que pour prononcer le phonème /v/, votre bouche a pris une forme assez différente pour chacun de ces deux mots. Maintenant, essayons de comprendre la conséquence de cette superposition temporelle des gestes articulatoires pour la perception des phonèmes. Dans la définition donnée plus haut, on parle d’une transmission en parallèle des phonèmes. Dans ce contexte, parallèle veut dire en même temps. Le fait que votre bouche se positionne différemment pour prononcer le phonème /v/ dans les mots verre et vous, implique que le son /v/ sera légèrement différent pour ces deux mots. Et votre système cognitif utilise cette différence comme indice sur le phonème qui va suivre. Autrement dit, lorsque vous prononcez le mot verre, une partie de l’information sur le phonème /ɛ/ est déjà présente quand vous prononcez le phonème /v/. A un instant de la prononciation, vous recevez l’information sur plusieurs phonèmes. L’information est transmise en parallèle. La notion de transmission parallèle des phonèmes lors de la coarticulation est cruciale, parce que c’est elle qui permet de comprendre l’extraordinaire efficience de la transmission de la parole. Elle implique également que toute théorie cognitive expliquant la perception de phonèmes devra composer avec cette propriété. Figure 7.18. « Spectrogramme » schématique du mot verre qui illustre le fait qu’en prononçant un mot, l’information sur les différents phonèmes est transmises en parallèle. Ó Anezka Smejkalova 2024 20 – SECTION 4 – LA PERCEPTION DE LA PAROLE 4.1. La théorie des traits pour expliquer la perception des phonèmes ? En règle générale, en psychologie de la perception, on considère que pour identifier un stimulus comme appartenant à une catégorie, il est nécessaire qu’il partage certains traits avec le modèle de la catégorie (la théorie des traits). Reprenons un exemple du chapitre 2 qui portait sur la perception visuelle. Pour identifier les signes écrits suivants : A, A, a, comme des exemplaires de la catégorie “Lettre A”, il faut détecter certains traits caractéristiques de cette catégorie (deux obliques qui se rejoignent, un sommet, une horizontale). Regardons maintenant les conséquences de la coarticulation sur le signal sonore qui correspond aux différentes syllabes qu’on peut produire avec le phonème /d/ (Figure 7.19.). Figure 7.19. Représentation schématique du spectrogramme correspondant aux syllabes composées de la consonne occlusive /d/ et les différentes voyelles du français. Sur cette représentation schématique (un autre spectrogramme simplifié de façon à montrer seulement les deux premiers formants pour chaque syllabe), vous voyez comment varie le son /d/ selon la voyelle qui le suit. Le phonème /d/ se trouve plutôt vers la gauche ce ces formants, et cette partie, qui devrait être commune à toutes ces syllabes, diffère pourtant largement. Dans le signal de parole, il semble très difficile de trouver de tels traits acoustiques, qui permettraient de catégoriser les signaux en phonèmes. Outre les variations acoustiques Ó Anezka Smejkalova 2024 21 systématiques déterminées par la coarticulation, le signal de parole est très variable. En effet, une même phrase aura des caractéristiques acoustiques très différentes selon qu’elle soit prononcée par une voix d’homme ou de femme, selon le débit de parole, selon l’environnement sonore, etc. Bref, on n’arrive pas à trouver de traits acoustiques qui pourraient soutenir la perception des phonèmes, si celle-ci devait reposer sur les mécanismes postulé par la théorie des traits. Comprendre la perception de la parole demande donc de proposer un autre mécanisme perceptif, qui pourrait rendre compte aussi bien de la variabilité de la parole que d’autres caractéristiques du signal de parole. Dans les paragraphes qui vont suivre, nous allons voir deux illustrations de ces caractéristiques qui ont permis aux chercheurs d’élaborer une théorie de la perception de la parole. 4.2. La perception catégorielle Une partie de la recherche sur la perception de la parole s’est concentrée sur la recherche de traits acoustiques qui pourraient caractériser chaque phonème. La manière la plus évidente de montrer qu’un certain indice acoustique joue un rôle dans la perception consiste à le manipuler. Cela veut dire le faire varier systématiquement, et mesurer si cela modifie la perception. Le trait qui distingue certaines consonnes est le voisement : dans le cas des consonnes occlusives (qui produisent une fermeture totale du flux d’air suivie d’une explosion lorsque l’air est libéré, comme /t/ ou /d/, pour plus d’exemples, voir la Figure 7.16.), on a les consonnes voisées, comme /d/, et les consonnes non voisées, comme /t/. La différence entre /d/ et /t/ peut être décrite en termes de présence ou d’absence de vibrations des cordes vocales pendant la prononciation de ces phonèmes. Si ces consonnes sont prononcées au début d’une syllabe (consonne + voyelle), les cordes vocales vont forcément commencer à vibrer, parce qu’elles vibrent pour toutes les voyelles. La seule différence entre les syllabes /da/ et /ta/ sera donc le moment où les cordes vocales commencent à vibrer. Pour la syllabe /da/ la vibration des cordes vocales commence avant l’explosion (la consonne /d/ est voisée). Pour la syllabe /ta/, la vibration commence après l’explosion. L’intervalle entre le début de la vibration des cordes vocales et l’explosion s’appelle le délai d’établissement du voisement (DEV). Ceci est illustré sur la Figure 7.20.A. Figure 7.20. A : Illustration du délai d’établissement du voisement (DEV) pour une syllabe voisée /da/ et non voisée /ta/. La question qui se pose est comment la modification du DEV modifie la perception ? La façon d’étudier cette question est illustrée sur la partie B de l’image. Les chercheurs créent des sons de synthèse où ils modifient, artificiellement, le DEV. Ó Anezka Smejkalova 2024 22 Pour comprendre comment le moment du voisement (ou le DEV) modifie la perception, les chercheurs (par exemple Lisker & Abramson, 1970) ont créé des sons correspondant à des syllabes /ta/ et /da/ avec des valeurs de DEV différents, comme illustré sur la Figure 7.20.B. Ces sons ont dû être créés synthétiquement – aucun humain ne dispose d’une précision articulatoire suffisante pour pouvoir sciemment les produire. De cette façon, ils ont créé un continuum de sons allant d’un son /da/ avec un DEV = -150 ms jusqu’à un son /ta/ avec un DEV = +150ms. Ils ont ainsi créé une trentaine de sons différents se situant sur ce continuum. Pour vous faire une idée, vous pouvez aller écouter un exemple ici. Ces sons ont été présentés aux participants, de façon aléatoire, dans des écouteurs, et ils devaient, pour chaque syllabe entendue, décider s’il s’agissait d’un /da/ ou d’un/ta/. Les chercheurs ont compté, pour chaque son, le pourcentage de participants qui ont choisi la réponse /da/ et le pourcentage de participants qui ont choisi la réponse /ta/. Avant de regarder le graphique des résultats, essayons de réfléchir un peu. Les chercheurs ont construit un continuum de sons. Il serait donc raisonnable de s’attendre à une évolution continue des réponses des participants. La Figure 7.21. illustre à quoi on s’attendrait dans ce cas. Figure 7.21. Illustration des résultats qu’on s’attendrait à obtenir si notre perception était continue. Sur l’axe des ordonnées, on a le pourcentage des réponses données par les participants. La ligne bleue en tirets donne les résultats hypothétiques pour la syllabe/da/, la ligne rouge continue donne des résultats hypothétiques pour la syllabe /ta/. L’axe des abscisses représente les différents sons proposés aux participants. L’extrémité gauche de l’axe correspond à un son avec un DEV = -150 ms, correspondant à un /da/ très clair, puisque les cordes vocales ont commencé à vibrer 150 ms avant l’explosion marquant la prononciation de l’occlusive /d/. Au milieu de l’axe, on trouve le moment de l’explosion, DEV = 0 ms, et tout à droite, on trouve un son caractérisé par le début de la vibration des cordes vocales 150 ms après l’explosion (DEV = +150 ms), indiquant un /ta/ très clair. Observer une évolution continue des réponses des participants indiquerait que la perception de ces sons est elle-même continue, l’idée étant qu’avec chaque modulation du DEV (-150, -140, -130, etc), la syllabe /da/ deviendrait un peu plus proche de /ta/, et induirait donc une modification de la réponse chez de plus en plus de participants. Obtenir ce patron de réponses indiquerait que la perception des différences entre les phonèmes est un phénomène continu. Mais le type de réponses obtenues par les chercheurs est très différent. Vous pouvez l’examiner sur la Figure 7.22. Ó Anezka Smejkalova 2024 23 Figure 7.22. Illustration des résultats effectivement obtenus dans l’étude de Lisker & Abramson (1970). On y voit que les réponses données par les participants sont très différentes de la prédiction d’une perception continue des modifications continues des sons. Au contraire : les participants donnent tous les mêmes réponses pour tous les sons avec un DEV entre -150 ms et environ +20 ms ; ils rapportent avoir entendu la syllabe /da/. À partir d’un DEV d’environ +25 ms, tous les participants donnent à nouveau les mêmes réponses, et rapportent avoir entendu la syllabe /ta/. Les courbes sur le graphique montrent ce passage abrupt dans la perception : les sons avec un DEV inférieur à +25 ms sont perçus comme /da/, et, au-delà de cette limite, les sons sont perçus comme /ta/. Contrairement à ce qu’on observerait si notre perception du voisement était continue (Figure 7.21.), il n’y a pratiquement pas de réponses intermédiaires entre les deux catégories, et on voit que la frontière se situe autour d’un DEV d’environ +25 ms. De manière générale, les résultats cette tâche d’identification fournissent une première indication en faveur de l’idée que notre perception des phonèmes est un phénomène catégoriel. Cette tâche est appelée la tâche d’identification des phonèmes, et, même si les considérations théoriques qu’on peut développer autour de cette tâche ont un peu évolué, on l’utilise toujours, notamment pour identifier objectivement un déficit de la perception de la parole chez des personnes rencontrant des difficultés dans les apprentissages scolaires. Les démonstrations de perception catégorielle ont suscité énormément d’intérêt, en grande partie parce que les premiers travaux laissaient penser qu’il s’agissait d’un phénomène propre aux stimuli de la parole. Ces résultats appuyaient donc ainsi la notion d’un mécanisme de perception spécialisée pour les sons de la parole. Ó Anezka Smejkalova 2024 24 4.3. L’intégration audio-visuelle de l’information phonétique Pour introduire les paragraphes suivants, je vous propose de regarder à nouveau la vidéo que vous avez déjà eu l’occasion de regarder dans le Chapitre 1 (vous pouvez cliquer sur la photo de la Figure pour la revoir). Figure 7.23. Démonstration de l’effet McGurk. Dans cette vidéo, la Prof. Patricia Kuhl répète une vingtaine de fois une paire de syllabes. Écoutez les cinq premières répétitions en regardant le visage sur l’écran (et notez ce que vous pensez que la chercheuse prononce) ; ensuite fermez les yeux pour écouter les cinq répétitions suivantes (et notez ce que vous percevez), et ainsi de suite jusqu’à la fin de la séquence. Comme nous allons le voir, cette vidéo est une démonstration de ce qu’on appelle « l’effet McGurk ». La découverte originale de l’effet McGurk est apparemment accidentelle. Les chercheurs McGurk et Macdonald préparaient du matériel pour étudier l’imitation chez l’enfant, et ils ont observé que, lorsqu’on présente à des adultes (sans troubles de l’audition) un clip vidéo d’un visage répétant la syllabe “GA” doublée avec le son “ba”, ils rapportent entendre… “da” ! Pour l’anecdote, on raconte que les auteurs ont cru à une erreur du technicien en charge, et que c’est seulement en fermant les yeux qu’ils ont pu se convaincre que le son était bien “ba”. Ce phénomène de fusion entre l’information auditive et l’information visuelle est connu sous le nom d’effet McGurk. Le principe de l’expérience est simple. Dans l’étude initiale de McGurk et Macdonald (1976), quatre clips vidéo ont été enregistrés, avec le visage d’une personne répétant BA-BA, GA-GA, PA-PA et KA-KA face à la caméra. Ensuite, les enregistrements ont été doublés et synchronisés pour produire quatre séquences (Figure 7.24) : BA-BA avec audio ga-ga GA-GA avec audio ba-ba PA-PA avec audio ka-ka KA-KA avec audio pa-pa Ó Anezka Smejkalova 2024 25 Figure 7.24. Présentation des quatre séquences utilisées par McGurk et Macdonald (1976). Chaque clip vidéo est doublé avec l’enregistrement sonore d’un autre stimulus. Avec ce matériel, ils ont testé 3 groupes de participants : des enfants de 3-4 ans, des enfants de 7- 8 ans et des adultes. Les participants devaient tout simplement rapporter librement ce qu’ils entendaient. A titre de contrôle, ils recevaient aussi la version audio uniquement (sans image) des quatre séquences. Les réponses ont été classées en cinq catégories (Figure 7.25), selon qu’elles correspondaient au son (réponses auditives), à l’image (réponses visuelles), à la fusion des deux sources d’information (réponses “da” ou “ta”), à la combinaison des deux informations (ex. gagba, bagba, baga, etc), ou à d’autres réponses. Les résultats sont donnés sur la Figure 7.26. Figure 7.25. Types de réponses considérées par McGurk et Macdonald (1976). Figure 7.26. Pourcentages de réponses selon le type de stimulus (repris de McGurk et Macdonald, 1976). Ó Anezka Smejkalova 2024 26 La partie des résultats la plus intéressante et la plus informative sur l’explication de l’effet McGurk sont le phénomène de combinaison, qui concernait uniquement les cas où l’information visuelle était BA-BA et l’information auditive ga-ga, et le phénomène de fusion, qui concernait uniquement les cas où l’information visuelle était GA-GA et l’information auditive ba-ba (Figure 7.27). Cette différence s’explique par le fait que, dans le premier cas, la fermeture des lèvres (occlusion bilabiale) nécessaire pour prononcer la consonne /b/est un indice visuel très saillant et qui n'est pas compatible avec le son /g/ qu’on entend. Il y a donc un conflit entre les modalités visuelle et auditive qui va conduire aux diverses combinaisons observées. Dans le second cas, l’information visuelle de l’articulation /ga/ est compatible avec /da/, car ces gestes ne se distinguent pratiquement pas sur le plan visuel. L’information auditive /ba/ est également compatible avec /da/, acoustiquement relativement proches, ce qui sonne lieu aux réponses de fusion. Figure 7.27. Illustration des situations donnant lieu à des réponses de combinaisons et de fusions des informations visuelle et auditive. Des études ultérieures ont montré que le phénomène de fusion n’est pas affecté par la connaissance préalable de l’illusion. Chose étonnante, il résiste relativement bien à la désynchronisation (jusqu’à 1/4 de seconde) et à la séparation spatiale entre le geste et le son. L’effet ne peut pas s’expliquer par une forme de devinement, influencé par les connaissances ou les attentes, et les rapports suggèrent qu’il est irrépressible, même si le taux de fusions varie d’une étude à l’autre. Enfin, des indications d’intégration de l’information auditive et visuelle pour la parole semblent déjà être observées chez des enfants de quelques mois. Proposition d’activité Réfléchissez. Si le phénomène de fusion est irrépressible (on ne peut pas éviter qu’il arrive), qu’est-ce que cela indique sur l’intégration de l’information visuelle et auditive ? Un petit indice : c’est dans le Chapitre sur l’Attention qu’il faut aller chercher si la réponse ne vous vient pas. L’observation que la perception de la parole incorpore de manière naturelle et involontaire l’information visuelle constitue un argument en faveur de l’idée qu’il s’agit d’un mécanisme spécifique. De plus les données obtenues avec des enfants de quelques mois soutiennent l’idée d’un mécanisme inné. Une des interprétations possibles rejoint l’hypothèse de la “théorie motrice de la perception de la parole”, qu’on va aborder dans la section suivante. Ó Anezka Smejkalova 2024 27 – SECTION 5 – LA THÉORIE D’UN MODULE SPÉCIALISÉ : LA THÉORIE MOTRICE DE LA PERCEPTION DE LA PAROLE Dans le chapitre précédent, on a pu voir qu’une théorie de la perception basée sur les traits élémentaires (similaire aux théories de la perception visuelle) n’est pas adaptée pour expliquer la perception des phonèmes. Le phénomène de coarticulation et d’autres paramètres introduisent une variabilité acoustique trop importante, et on ne trouve pas les traits présents systématiquement pour que notre perception puisse se baser dessus. On a également appris que lorsqu’il s’agit de phonèmes, notre perception est catégorielle, même quand on introduit une variation continue d’une dimension qui différencie deux phonèmes (par exemple le voisement). Enfin, avec l’effet McGurk, on a pu voir que la perception des phonèmes est modulée de façon spectaculaire par l’information qu’on peut lire sur les lèvres de la personne qui parle. La vision influence directement ce qu’on entend ! Mais si la perception des phonèmes ne peut pas être expliquée par une théorie des traits, comment peut-on l’expliquer autrement ? En considérant tous les éléments mentionnés dans le paragraphe précédent, les chercheurs ont proposé l’idée de l’existence d’un décodeur de la parole qui correspondrait à un système spécialisé dont le rôle serait d’identifier les phonèmes. Selon l’idée influente qui a marqué la recherche sur la perception de la parole pendant des décennies, ce mécanisme spécialisé fonctionnerait en associant l’information auditive des sons réceptionnés aux commandes neuromotrices nécessaires pour les produire. Autrement dit, la perception d’un phonème impliquerait un mécanisme cognitif basé sur la simulation des commandes motrices nécessaires pour produire les phonèmes. Selon cette théorie, qui s’appelle la théorie motrice de la perception de la parole, lorsque vous entendez un phonème, votre cerveau produit une activité très similaire à l’activité qu’il produit lorsque vous prononcez ce même phonème. Et c’est cette mise en lien entre ce que vous entendez et la simulation qui vous permettrait de reconnaitre le phonème. Pour mieux comprendre, il faut faire un point sur la façon dont notre cerveau produit les mouvements, et brièvement parler d’une découverte importante dans le domaine des neurosciences : les neurones miroirs. Ó Anezka Smejkalova 2024 28 5.1. Comment notre cerveau produit un mouvement ? Pour bouger un bras, il faut que le cerveau envoi une commande vers le bras. Cette commande partira du cortex moteur primaire, et voyagera via les nerfs de la moelle épinière vers les muscles du bras. Le cortex moteur se situe à l’avant du sillon central, qui sépare le lobe frontal du lobe pariétal. (voir la Figure 7.28.A). Le rôle principal du cortex moteur primaire est de gérer les commandes motrices de tous les muscles du corps, y compris les muscles du visage, de la bouche, de la langue et du larynx qu’on, utilise pour parler. Le cortex moteur est organisé de façon somatotopique : chaque région du cortex correspond à un groupe de muscles, et deux régions corticales adjacentes envoient des commandes à deux muscles adjacents. Par ailleurs, la taille de la région corticale correspondant à un groupe de muscles dépend directement de la complexité des gestes que ces muscles peuvent produire : on remarque sur la Figure 7.28.B. que les régions qui correspondent à la main et aux muscles du visage sont particulièrement étendues. La Figure 7.28.C. montre l’homonculus moteur reconstruit sur base de cette information corticale. Comme on le verra, le fait que les régions cérébrales qui commandent la langue et les lèvres sont deux régions distinctes et relativement étendues sera assez utile pour tester les prédictions de la théorie motrice de la perception de la parole. Figure 7.28. A : L’organisation globale du cortex cérébral, avec le cortex moteur primaire en rouge. B : L’organisation somatotopique du cortex moteur primaire. C : Visualisation de l’homonculus moteur – la taille des différentes parties du corps est établie selon la taille de la portion du cortex moteur consacrée au mouvement de cette partie du corps. 5.2. Neurones miroirs La découverte des neurones miroirs chez le singe par l’équipe du chercheur italien Rizzolatti (1992, 1997), et les travaux ultérieurs suggérant l’existence de systèmes de neurones miroirs chez l’humain ont fourni un argument indirect important en faveur de la théorie motrice. La démonstration initiale, avec des macaques, a consisté à montrer que l’exposition à des mouvements de la main de l’expérimentateur (par exemple attraper une banane) provoquait l’activité d’un sous-ensemble de neurones du cortex moteur, qui sont normalement actifs lorsque l’animal réalise lui-même l’action (Figure 7.29.). Plusieurs équipes ont vu dans ces résultats des points de ressemblance avec la théorie motrice. Ó Anezka Smejkalova 2024 29 Figure 7.29. Illustration du principe de fonctionnement des neurones miroirs chez un signe : un groupe de neurones se situant au niveau du cortex moteur sont actifs de façon similaire lorsque le singe réalise une action lui-même et lorsqu’il regarde l’expérimentateur la réaliser. Ils représentent un mécanisme neuronal plausible pour la théorie motrice de la perception de la parole. 5.3. Activation des régions motrices pendant des tâches de perception de syllabes Pour démontrer que les représentations motrices jouent un rôle dans la perception des phonèmes, Pulvermüller et al. (2006) ont fait appel à l’imagerie par résonnance magnétique fonctionnelle (IRMf). Les chercheurs ont enregistré l’activité cérébrale des participants pendant qu’ils répétaient mentalement des syllabes avec une consonne labiale (/pi/ ou /pa/) ou avec une consonne dentale (/ti/, /ta/). Ils ont également enregistré l’activité cérébrale des participants lorsqu’ils écoutaient des enregistrements des mêmes syllabes, et lorsqu’ils faisaient mentalement des mouvements impliquant leurs lèvres ou leurs dents. On a donc ici trois conditions : une tâche de mouvement (les participants produisent des mouvements non linguistiques), une tâche d’articulation (les participants prononcent des syllabes) et une tâche de perception (les participants écoutent des syllabes). Dans les trois conditions, les résultats ont montré (voir Figure 7.30.) que l’activité dans le cortex moteur était différente selon le type de syllabe : les syllabes avec une consonne labiale donnaient lieu à une activation dans la région corticale correspondant au contrôle moteur des lèvres, et les syllabes avec une consonne dentale, qui demandent un mouvement de la pointe de la langue, donnaient lieu à de l’activité dans la région corticale correspondant à la langue. De façon générale, l’étude a montré que des régions spécifiques du cortex moteur étaient activées pour les tâches de perception des sons de la parole. Figure 7.30. Coupes frontales montrant l’activation différente, à gauche, pour des mouvements des lèvres (en rouge) et de la langue (en vert), au centre, pour l’articulation de syllabes avec /p/ ou /t/, à droite, à l’écoute de syllabes avec /p/ ou /t/ (repris de Pulvermüller et al, 2006) Ó Anezka Smejkalova 2024 30 Suite à cette étude (et d’autres études similaires), une remarque a rapidement été formulée. Si ces études montrent de l’activité dans le cortex moteur lors de la perception de la parole, elles ne permettent pas d’affirmer que cette activité joue un rôle dans le processus de perception en soi. On pourrait en effet envisager que l’activité observée soit seulement une conséquence secondaire de l’activité dans les aires responsables de la perception (ce qu’on appelle un épiphénomène), sans vraiment contribuer à la construction d’une représentation perceptive. 5.4. Influence de l’activation motrice sur la perception Pour montrer que l’activité motrice joue un rôle et contribue à la perception, Meister et al. (2007) ont utilisé une technique particulière appelée la stimulation magnétique transcrânienne répétée (TMS pout Transcranial Magnetic Stimulation). La TMS est une technique qui permet de stimuler les régions du cerveau de manière non-invasive. Elle est indolore et ne représente aucun danger pour les personnes qui la reçoivent. On applique une bobine sur le scalp (Figure 7.31.), et celle-ci va générer un champ magnétique qui va induire une activité électrique locale dans la région cérébrale sous-jacente. Selon les paramètres de stimulation, la TMS permettra d’exciter ou d’inhiber sélectivement une région relativement précise du cortex. Figure 7.31. Dispositif de stimulation magnétique transcrânienne. Image reprise de Wikipédia. La TMS permet de cibler les régions corticales superficielles. Outre les utilisations expérimentales, elle est employée en clinique pour différentes pathologies (maladie de Parkinson, dépression profonde). Dans l’étude de Meister et al. (2007), les participants passaient deux tâches : Dans la condition verbale, ils entendaient des syllabes en partie noyées dans un bruit homogène, et ils devaient décider s’il s’agissait de /pa/, /ta/ ou /ka/. Dans la condition visuelle, ils devaient discriminer entre trois couleurs (rouge, vert, bleu). Ó Anezka Smejkalova 2024 31 Les deux conditions ont été calibrées (par l’ajout de bruit pour les syllabes, et par la saturation en couleur pour la condition visuelle) de façon à ce que le niveau de performance de base soit très similaire : environ 75% de réponses correctes. La stimulation était appliquée soit sur une portion du cortex moteur gauche, soit au niveau du gyrus temporal supérieur gauche (région qui correspond aux aires sensorielles auditives). Les résultats (voir Figure 8.30) montrent une dégradation de la performance (de 79 % à 70 % de réponses correctes environ) dans la condition verbale uniquement lors de la stimulation du cortex moteur. Comme on pouvait s’y attendre, la performance dans la tâche de discrimination de couleurs n’était modifiée ni par la stimulation du cortex moteur, ni par celle du gyrus temporal supérieur. Figure 7.32. Résultats de l’expérience de Meister et al. (2007) : la figure rapporte la performance à la tâche de discrimination (couleurs ou phonèmes) exprimée en pourcentage. Dans l’expérience de Meister et al. (2007), on a donc une démonstration plus convaincante d’une contribution des représentations motrices lors de la perception de phonèmes. Si l’activité des régions motrices ne participait pas directement au processus de perception, on n’observerait pas la dégradation des performances spécifiques à la discrimination de phonèmes lorsque ces régions sont stimulées par la TMS. Ces résultats, avec ceux de Pulvermüller, appuient donc la conclusion : que le cortex moteur est activé lors de la perception de la parole, que l’information acoustique conduit à activer chez les auditeurs les aires motrices correspondant aux articulateurs actifs lors de la production, et que cette simulation des gestes articulatoires ou des commandes motrices contribue à l’identification des phonèmes. Le débat n’est cependant pas clos. Les résultats décrits ici n’ont pas été reproduits systématiquement dans d’autres laboratoires. De plus, un contre-argument potentiel provient d’observations de pathologies : il n’y a pas d’associations systématiques entre la présence d’une lésion des aires motrices et des troubles de la perception de la parole ou de la compréhension à Ó Anezka Smejkalova 2024 32 l’audition. La nature des tâches proposées dans ces expériences, plutôt éloignées des conditions naturelles de la perception (par exemple lors d’une conversation), pourrait également être critiquée. Une des questions actuelles est de déterminer si la référence au système moteur est obligatoire et systématique, ou si elle n’intervient qu’en cas de défaillance sensorielle ou de dégradation de l’information auditive. En effet la plupart des études qui ont mis en évidence une contribution des aires motrices ont utilisé des stimuli de parole masqués par du bruit. Quoi qu’il en soit, les résultats de recherche confirment l’idée que les mécanismes de la perception de la parole sont étroitement liés au système moteur, et qu’ils permettent une simulation interne des gestes articulatoires, qui pourrait faciliter la compréhension lorsque les conditions l’exigent. Proposition d’activité Reprenez les expériences présentées dans la section 5. Pour chacune entre elles répondez aux questions suivantes : Quelle est la VD de cette expérience ? Quelles sont les VI ? Ó Anezka Smejkalova 2024 33

Use Quizgecko on...
Browser
Browser