Chapitre 7. Les sons de la parole : Perception PDF
Document Details
Uploaded by LeanIndicolite
Université libre de Bruxelles
Tags
Summary
This document discusses the chapter on perceptual aspects of speech sounds. It explains the concepts of sound waves, frequency, and different types of sounds. It also discusses how human ears perceive sounds and examines examples of various sounds like vowels, consonants, and noise.
Full Transcript
Psycholinguistique PSYC-E102 Chapitre 7. Les sons de la parole : Perception DU SON AU CERVEAU 1. Le son est une onde Sons = vibrations qui se propagent dans l’air sous forme d’ondes. Le mouvement engendre une oscillation des molécules d’air. Ex : Qua...
Psycholinguistique PSYC-E102 Chapitre 7. Les sons de la parole : Perception DU SON AU CERVEAU 1. Le son est une onde Sons = vibrations qui se propagent dans l’air sous forme d’ondes. Le mouvement engendre une oscillation des molécules d’air. Ex : Quand on jette un caillou dans l’eau, on voit des vagues se propager dans toutes les directions à partir de la source. Il y a des endroits où les molécules sont très concentrées (compression), et d’autres se font plus rares (dilatation). B : son = sinusoïde, les pics vers le haut = moments de compression, les pics vers le bas = moments de dilatation. Les ondes qui donnent lieu à la perception visuelle sont des ondes électromagnétique. Les ondes qui donnent lieu à la perception auditive sont des ondes mécaniques. = Oscillogramme (représente les modifications de l’amplitude de l’énergie en fonction du temps). Amplitude = Force des vibrations, détermine l’intensité des sons qui sont perçues (dB). Plus l’amplitude sera élevée, plus l’intensité perçue sera forte. Fréquence (dépend du temps) = Nombre de cycles entiers/seconde, hauteur du son que l’on perçoit (Hz). Plus la fréquence sera élevée, plus le son sera perçu comme étant aigu. Temps = l’axe des abscisses qui le montre (sec). 2. Est-ce qu’on peut entendre toutes les fréquences ? Le système auditif humain n’est pas adapté pour entendre toutes les logeurs d’onde. 1 Psycholinguistique PSYC-E102 On n’entend les les sont plus graves que 20 Hz (infrasons), ni les sont plus aigus qu’environ 16000-20000 Hz (ultrasons). Cette sensibilité évolue avec l’âge : en vieillissant, nous perdons progressivement nos capacités à percevoir les sons aigus. 3. Différents types de sons Une autre caractéristique qui va déterminer la nature du son est la forme que l’onde va prendre. 1. Son pur = une simple onde sinusoïdale (composée d’une fréquence unique). N’existe pas dans la nature, mais on peut en produire artificiellement. 2. Sons complexes = la plupart des sons qui nous entourent. Sons complexes périodiques (sons harmoniques). Sons complexes non-périodiques (les bruits). La différence entre les premiers et les seconds est la présence d’un motif régulier qui se répète pour les sons harmoniques, et son absence pour les bruits. Si un son pur est composé d’une fréquence unique (par exemple 1 Hz), un son harmonique sera tjs composé de plusieurs fréquences. Pour mieux comprendre cela, il faut introduire une autre forme de visualisation de l’information sonore, qu’on appelle parfois le spectre. Il s’agit d’une visualisation de l’amplitude en fonction de la fréquence. 2 Psycholinguistique PSYC-E102 Le bruit est composé de plusieurs fréquences, sans régularité. La procédure mathématique qui permet de décomposer une onde complexe en une somme de sinusoïdes simples s’appelle la transformée de Fourier. Une onde complexe est toujours composée de plusieurs ondes plus simples. *Sons complexes périodiques = Sons harmoniques. Dans le cas des sons harmoniques, la fréquence fondamentale = fréquence la plus basse, et les autres fréquences composant ce son = des harmoniques (qui sont des multiples entiers de la fréquence fondamentale : le double, le triple, etc). La fréquence fondamentale détermine la hauteur perçue, les harmoniques déterminent le timbre perçue (ensemble de caractéristiques spécifiques à une source donnée — une voix, le son d’un instrument de musique…). Au niveau des sons du langage, on peut considérer les voyelles (par ex., /a/, /e/, / y/) sont des sons complexes harmoniques. Les bruits peuvent aussi être mathématiquement décomposés en une somme de sinusoïdes simples. La différence = pas de structure régulière des fréquences qui composent le son complexe. Au niveau des sons du langage, les consonnes correspondent à des bruits. 3 Psycholinguistique PSYC-E102 Troisième façon de visualiser les sons : Spectrogramme. Si l’oscillogramme permet de montrer l’évolution de l’amplitude en fonction du temps, et le spectre permet de montrer l’amplitude sur différentes bandes de fréquence, l’intérêt du spectrogramme est qu’il intègre ces 3 dimensions (amplitude, fréquence, temps) sur un seul graphique. —> Sur l’axe des ordonnées, on trouve les fréquences. Il faut s’imaginer que le graphique est composé de multiples lignes horizontales très fines, et que chaque ligne correspond à une bande de fréquence. L’axe des abscisses représente l’évolution du signal de parole en fonction du temps. Enfin, le code couleur donne l’information sur l’amplitude : elle est plus forte lorsqu’on va vers le rouge, et plus faible vers le bleu. 4. Quelques notions d’anatomie Oreille externe = composée principalement du pavillon et du conduit auditif. Oreille moyenne = composée principalement du tympan et des osselets. Oreille interne = composée principalement de la cochlée et du vestibule. A : La forme particulière du pavillon permet d’amplifier le son et de l’acheminer via le conduit auditif externe jusqu’au tympan. Lorsque les vibrations au son atteignent le tympan, celui-ci se met à vibrer. B : Tympan + osselets (marteau - enclume - étrier). Le marteau est relié directement au tympan, l’enclume est reliée au marteau et à l’étrier via deux articulations. L’étrier est en contact avec l’oreille interne au niveau de la fenêtre ovale. 4 Psycholinguistique PSYC-E102 —> Les osselets jouent un rôle essentiel à 2 niveaux. Premièrement, ils permettent d’amplifier le son. Deuxièmement, ils permettent de transmettre les sons entre deux milieux : le milieu aérien de l’oreille externe, et le milieu aqueux de l’oreille interne. D : l’action de l’étrier sur la fenêtre ovale met en mouvement le liquide à l’intérieur de la cochlée, et les vibrations vont se propager dans ce milieu jusque’à rentrer en contact avec la membrane basilaire, qui contient les cellules réceptrices de l’audition, les cellules ciliées. Les axones des cellules ciliées sont connectées aux cellules du ganglion spiral dont les axones forment le nerf auditif, qui va acheminer l’influx nerveux vers les régions auditives du cortex cérébral, qui se situent au niveau du lobe temporal. Les cortex auditifs primaire (A1) et secondaire (A2) se situent dans le pli qui sépare le lobe temporale des lobes frontal (à l’avant du cerveau) et pariétal (à l’arrière du cerveau). Pour y accéder lors d’une intervention chirurgicale, il faut écarter le pli. Que ce soit au niveau de la membrane basilaire de la cochlée, ou au niveau du cortex auditif primaire, on va trouver une organisation particulière de l’information. Les cellules qui se trouvent physiquement proches vont traiter des sons similaires (du point de vue des fréquences). On parle alors d’une organisation tonotopique. 5. Quels sons l’oreille humaine peut-elle capter ? Oreille humaine est un organe très sensible. 5 Psycholinguistique PSYC-E102 L’axe des ordonnées nous donne ici l’échelle de l’intensité (mesurée en dB). Plus on est haut sur l’axe, plus le son est fort. L’axe des abscisses nous donne les fréquences. La ligne noire qui relie les points 1 et 2 nous donne le seuil d’audibilité. Ce qui se trouve en dessous de ce seuil n’est pas audible pour l’oreille humaine, est ce qui se trouve au-dessus est audible. Un 1er constat : Ce seuil n’est pas le même pour toutes les fréquences : pour entendre des sons très bas ou très haut, il faut plus d’intensité que pour entendre des sons qui se situent entre 1000 et 4000 Hz. La zone d’émission de la parole correspond assez bien aux fréquences auxquelles on est le plus sensibles (et donc on a brisons de moins de dB pour entendre). Cette sensibilité présent un inconvénient : SI les sons sont trop forts, les recevoir devient une expérience physiquement douloureuse qui peut aboutir à la destruction des tympans, et dans les cas les plus graves, à la destruction des cellules ciliées. Une fois que les cellules ciliées sont détruites, on perd définitivement la capacité à entendre les fréquences correspondantes, car elles ne se régénèrent pas (pour cela le téléphone envoie des notification de baisser le son en utilisant des écouteurs). —> Conclusion ? Nos oreilles sont particulièrement adaptées pour entendre les sons du langage. LES SONS DE LA PAROLE : ARTICULATION ET ACOUSTIQUE On ne peut pas vraiment comprendre les mécanismes de la perception de la parole indépendamment de la production de la parole. 6 Psycholinguistique PSYC-E102 On parle en expirant : Pour qu’on puisse sortir de notre bouche, il faut que les poumons émettent de l’air. Cet air va passer par la trachée et travers les cordes vocales. Le passage par les cordes vocales va engendrer une vibration de l’air (si les codes vocales sont serrées) et, par conséquent, permettre l’émission du son. Si les cordes vocales restent relâchées, l’air sera expiré en silence (ou bien sortir sous firme de chuchotement). Après le passage par les cordes vocales, l’air va atteindre les cavités buccale et/ou nasale, qui vont servir de caisse de résonance. À ce niveau-là, l’air va également rencontrer certains « obstacles » : les articulateurs (la luette, le palais, la langue, les dents, on encore les lèvres). Le positionnement précis de ces articulateurs permet de moduler le son qui va effectivement sortir de notre bouche ; ils nous permettent de prononcer (articuler) différents sons de la parole : les phonèmes. 1. Voyelles = Sons harmoniques. On produit les voyelles par la vibration des cordes vocales (larynx). Impossible de prononcer une voyelle si les cordes vocales sont complètement relâchées. Amplifiées/modifiées par le passage par les cavités (orale, nasale). Ce qui va distinguer les voyelles entre elles sera la position spécifique des articulateurs. Dimensions principales : l’ouverture de la bouche, position de la langue, l’arrondissement des lèvres, et la nasalité. Les caractéristiques acticulatoires des voyelles sont en lien direct avec leurs caractéristiques acoustiques (sonores). On a pu démontrer cela en visualisant les sons spécifiques aux voyelles avec un spectrogramme. 7 Psycholinguistique PSYC-E102 On a constaté que la forme donnée au canal vocal par les articulateurs déterminé directement la distribution d’énergie sur les différentes bandes de fréquences. Ainsi, on se rend compte que pour chaque voyelle, l’énergie acoustique se localise autour de bandes de fréquences particulières et stables. —> On appelle ces bandes stables les formants. Les fréquences du 1er et du 2ème formants suffisent pour identifier les voyelles du français. Le 1er formant peut notamment être mis en lien direct avec le degré d’ouverture des lèvres (la fréquence augmente graduellement de /i/ à /a/ et diminue ensuite de /a/ à /u/.) 2. Consonnes Résultent d’une fermeture partielle (constriction) ou totale (occlusion avec ou sans ouverture de la cavité nasale) à un endroit particulier du canal vocal. 3 dimensions : Type de fermeture, lieu d’articulation, voisement. ✴ Le mode d’articulation, qui correspond au type de fermeture, laquelle peut être partielle (constriction/friction) ou totale (occlusion). Lorsque vous prononcez une consonne fricative, l’air peut continuer à s’échapper de votre bouche, vous pouvez allonger le temps de prononciation (par ex. : /s/). Lorsque vous prononcez une consonne occlusive, l’air est d’abord complètement bloqué par l’articulateur. La libération de l’air provoquera une petite « explosion » (par ex., /p/). ✴ Le lieu de cette fermeture, on va parler du point d’articulation (lèvres, palais…) ✴ L’activité des cordes vocales (elles vibrent ou pas), on va parler du voisement. Consonnes du français selon ces trois dimensions — Labial = Implique les lèvres. — Alvéolaire = Implique l’espace directement derrière les dents. — Palatal/vélaire = Se situe plus loin dans la bouche au niveau du palais et du voile du palais. 8 Psycholinguistique PSYC-E102 3. (Co-)Articulation des phonèmes à l’intérieur de mots et de phrases Les phonèmes sont prononcés quasi-systématiquement à l’intérieur de mots et de phrases. Une représentation graphique du son de la phrase « Si ça souffle sous les arbres, pas de graines pour les pies ». ✴ D’un point de vue sonore, il n’y a (presque) pas d’interruptions dans le flux de la parole. En général, il n’y a aucune séparations sonores entre les mots, et il n’y en a pas non plus entre les phonèmes successifs qui forment les mots. ✴ Au début de la phrase (« si ça souffle sous »), il est possible de distinguer l’alternance de fréquences et d’énergie entre chaque /s/ et chaque voyelle successive, pour lesquelles les formants sont visibles. Seulement, la distinction consonne-voyelle au sein d’un spectrogramme n’est pas toujours faisable, comme l’illustre l’absence de telles séparations dans le reste de la phrase. ✴ Une observation qui pourrait échapper à un œil inhabitué à ces représentations graphiques : pour les quatre /s/ qui se suivent au début des mots, le spectre semble être un peu différent à chaque fois. Pour cause, il contient à chaque fois les formants de la voyelle qui suit. ✴ Enfin, si on se concentre uniquement sur le mot « pies » on n’observe aucune discontinuité. Impossible d’identifier une partie qui correspondrait à la consonne /p/ dans /pi/. —> Ces remarques illustrent une propriété essentielle de la transmission de la parole : les phonèmes successifs ne sont pas produits séparément, ni même successivement. On appelle ce phénomène la coarticulation. — Sur le plan de la production, la coarticulation correspond au fait que les gestes requis pour produire des phonèmes successifs se superposent temporellement. 9 Psycholinguistique PSYC-E102 — Sur le plan réceptif, la conséquence de la coarticulation est la transmission en parallèle des phonèmes. Explications : Le geste requis pour produire un phonème veut dire la configuration de tous les articulateurs nécessaires pour produire un phonème. Plus simplement : la forme qui notre bouche et tous les articulateurs qui se trouvent dedans prenez pour prononcer un phonème donné. Ex : la forme différente de la bouche quand on prononce les mots verre et vous. Notre système cognitif utilise cette différence comme indice sur le phonème qui va suivre. Autrement dit, lorsque nous prononçons le mot verre, une partie de l’information sur le phonème /ɛ/ est déjà présente quand nous prononçons le phonème /v/. À un instant de la prononciation, nous recevons l’information sur plusieurs phonèmes. L’information sur les différents phonèmes est transmise en parallèle. Concrètement, le geste articulatoire que l’on fait pour produire le phonème /v/ sera influencé par le fait que le /v/ est suivi par la voyelle /ɛ/. Le geste articulatoire pour produire la voyelle /ɛ/ sera influencé par le fait que celle-ci est précédée par /v/ et suivie par /ʁ/. LA PERCEPTION DE LA PAROLE 1. La théorie des traits pour expliquer la perception des phonèmes ? ! Pas applicable dans ce cas. Si les caractéristiques acoustiques des phonèmes varient autant selon le contexte, comment le système perceptif fait pour les reconnaître ? Sur ce schéma, on voit comment varie le son /d/ selon voyelle qui le suit. Le phonème /d/ se trouve plutôt vers la gauche de ces formants, et cette partie, qui devrait être commune à toutes ces syllabes, diffère pourtant largement. 10 Psycholinguistique PSYC-E102 Dans le signal de parole, il semble très difficile de trouver de tels traits acoustiques, qui permettraient de catégoriser les signaux en phonèmes. Outre les variations acoustiques systématiques déterminées par les coarticulation, le signal de parole est très variable. Une même phrase aura des caractéristiques acoustiques très différentes selon qu’elle soit prononcée par une voix d’homme ou de femme, selon le débit de parole, selon l’environnement sonore, etc. Mécanisme spécialisé pour « décoder » le signal acoustique. —> Perception catégorielle —> Intégration audio-visuelle de l’information phonétique (ex : les lèvres qui parlent). = théorie motrice de la perception de la parole. Bref, on n’arrive pas à trouver de traits acoustiques qui pourraient soutenir la perception des phonèmes, si celle-ci devait reposer sur les mécanismes postulé par la théorie des traits. —> Donc, autre mécanisme perceptif. 2. La perception catégorielle Mécanisme spécialisé pour « décoder » le signal de la parole = La perception catégorielle La recherche de traits acoustiques qui pourrait caractériser chaque phonème. Manipuler un certain indice acoustique et mesurer si cela modifie la perception. Le trait qui distingue certaines consonnes est le voisement : dans le cas des consonnes occlusives (comme /t/ et /d/) : Consonnes voisées, comme /d/ Consonnes non voisées, comme /t/. La différence entre /d/ et /t/ = présence/absence de vibrations des cordes vocales pendant la prononciation de ces phonèmes. Si ces consonnes sont prononcées au débit d’une syllabe (consonne + voyelle), les cordes vocales vont commencer à vibrer, parce qu’elles vibrent pour toutes les voyelles. La seule différence entre les syllabes /da/ et /ta/ = le moment où les cordes vocales commencent à vibrer. 11 Psycholinguistique PSYC-E102 ✴ Pour la syllabe /da/ la vibration des cordes vocales commence avant l’explosion (la consonne /d/ est voisée). ✴ Pour la syllabe /ta/, la vibration commence après l’explosion. Délai d’établissement du voisement (DEV) = l’intervalle entre le début de la vibration des cordes vocales et l’explosion. ce délai a des valeurs négatives pour des consonnes voisées et des valeurs positives pour les consonnes non-voisées. Quel est l’impact du DEV sur la perception ? Manipulation du délai de voisement pour mieux comprendre la perception des phonèmes Tâche d’identi cation des phonèmes (ta/da) < Lisker & Abramson (1970). Ont créé des sons correspondant à des syllabes /ta/ et /da/ avec des valeurs de DEV différentes. Ils ont créé un continuum de sons allant d’un son /da/ avec un DEV = -150 ms jusqu’à un son /ta/ avec un DEV = +150ms. 30 de sons différents se situant sur ce continuum. —> Il serait donc raisonnable de s’attendre à une évolution continue des réponses des participants. Modification continue = Perception continue ? Les réponses données par les participants sont très différentes de la prédiction d’une perception continue des modifications continues des sons. 12 fi Psycholinguistique PSYC-E102 —> Les sons avec un DEV inférieur à +25 ms sont perçues comme /da/, et au-delà de cette limite, les sons sont perçus comme /ta/. Contrairement à ce qu’on observerait su notre perception du voisement était continue, il n’y a pratiquement pas de réponses intermédiaires entre les deux catégories, et on voit que la frontière se situe autour d’un DEV d’environ +25 ms. Les résultats de cette tâche d’identification fournissent une première indication en faveur de l’idée que notre perception des phonèmes est un phénomène catégoriel. —> Ces résultats appuient donc ainsi la notion d’un mécanisme de perception spécialisée pour les sons de la parole. Ex: « Démonstration 3 » : /pa/ et /ta/ : La différence en termes de trait articulatoire ? — Labial : /p/. — Alvéolaire : /t/ 3. L’intégration audio-visuelle de l’information phonétique Vidéo : La Prof. Patricia Kuhl répète une vingtaine de fois une paire de syllabes. Démonstration de « l’effet McGurk » Phénomène de fusion entre l’information auditive et l’information visuelle. McGurk et MacDonald travaillaient sur le développement de la perception auditive chez les enfants —> Découverte accidentelle. Impression du problème technique. En regardant la personne parler on entend pas les mêmes paires de syllabes que si on ne la regarde pas alors que du début à la fin c’est la même paire de syllabes. < McGurk & MacDonald (1976), 4 clips vidéos ont été enregistrés, avec le visage d’une personne répétant BA-BA, GA-GA, PA-PA et KA-KA face à la caméra. Ensuite, les enregistrements ont été doublés et synchronisés pour produire 4 séquences : 13 Psycholinguistique PSYC-E102 Avec ce matériel, ils ont testé 3 groupes de participants : Des enfants de 3-4 ans, des enfants de 7-8 ans et des adultes. Les réponses ont été classées en 5 catégories, selon qu’elles correspondaient au son (réponses auditives), à l’image (réponses visuelles), à la fusion des deux sources d’information (réponses « da » et « ta »), à la combinaison des deux informations (ex. gagba, bagba, baga…), ou d’autres réponses. La partie des résultats la plus intéresse et la plus informative sur l’explication de l’effe McGurk sont le phénomène de combinaison, qui concernait uniquement les cas où l’information visuelle était BA-BA et l’information auditive ga-ga, et le phénomène de fusion, qui concernait uniquement les cas où l’information visuelle était GA-GA et l’information auditive ba-ba. —> Dans le 1er cas, la fermeture des lèvres (occlusion bilabiale) nécessaire pour prononcer la consonne /b/est un indice visuel très saillant et qui n'est pas compatible avec le son /g/ qu’on entend. —> Dans le 2nd cas, l’information visuelle de l’articulation /ga/ est compatible avec /da/, car ces gestes ne se distinguent pratiquement pas sur le plan visuel. L’information auditive /ba/ est également compatible avec /da/ acoustiquement relativement proches, ce qui sonne lieu aux réponses de fusion. 14 Psycholinguistique PSYC-E102 Le phénomène de fusion n’est pas affecté par la connaissance préalable de l’illusion. Il réside relativement bien à la désynchronisation (jusqu’à 1/4 de sec) et à la séparation spatiale entre le geste et le son. L’effet ne peut pas s’expliquer par une forme de devinement. Le phénomène de fusion est irrépressible. La perception de la parole incorpore de manière naturelle et involontaire l’information visuelle. Rejoint l’ID qu’il existerait un mécanisme spécialisé pour « décoder » le signal de la parole est prendrait en compte plusieurs informations. Le phénomène de coarticulation et d’autres paramètres introduisent une variabilité acoustique trop importante, et on ne trouve pas les traits présents systématiquement pour que notre perception puisse se baser dessus. On a également appris que lorsqu’il s’agit de phonèmes, notre perception est catégorielle, même quand on introduit une variation continue d’une dimension qui différencie deux phonèmes (par exemple le voisement). Enfin, avec l’effet McGurk, on a pu voir que la perception des phonèmes est modulée de façon spectaculaire par l’information qu’on peut lire sur les lèvres de la personne qui parle. La vision influence directement ce qu’on entend ! LA THÉORIE D’UN MODULE SPÉCIALISÉ : LA THÉORIE DE LA PERCEPTION DE LA PAROLE En considérant les éléments précédents, les chercheurs ont proposé l’ID de l’existence d’un décodeur de la parole qui correspondrait à un système spécialisé dont le rôle serait d’identi er les phonèmes. Le décodage du signal de la parole implique que le système perceptif reconstitue les gestes articulatoires grâce à une « simulation » des commandes motrices. Cette théorie propose qui, pour reconnaitre un phonème, notre cerveau simule les mouvements nécessaires pour le produire. En entendant un phonème, l’activité cérébrale ressemble à celle qui se produit quand nous le prononçons. Cela s’appuie sur le rôle des neurones miroirs, qui sont impliqués dans la compréhension des actions en reproduisant mentalement les mouvements observés. 1. Comment notre cerveau produit un mouvement ? Pour bouger un bras, il faut que le cerveau envoi une commande vers le bras. 15 fi Psycholinguistique PSYC-E102 Cette commande partira du cortex moteur primaire, en voyagera via les nerfs de la moelle épinière vers les muscles du bras. Le cortex moteur se situe à l’avant du sillon central, qui sépare le lobe frontal du lobe pariétal. Le rôle principal du cortex moteur primaire est de gérer les commandes motrices de tous les muscles du corps, y compris les muscles du visage, de la bouche, de la langue et du larynx, qu’on utilise pour parler. Le cortex moteur est organisé de façon somatotopique : chaque région correspond à un groupe de muscles, et deux régions corticales adjacents envoient des commandes à deux muscles adjacents. La taille de la région corticale correspondant à un groupe de muscles dépendant directement de la complexité des gestes que ces muscles peuvent produire. Partie les + grandes = Mains, bouche, langue. La Figure C montre l’homonculus moteur reconstruit sur base de cette information corticale. 2. Neurones miroirs < Chercheur italien Rizzolatti (1992, 1997) — chez le singe La démonstration initiale, avec des macaques, a consisté à montrer que l’exposition à des mouvements de la main de l’expérimentateur ‘(par exemple attraper une banane) provoquait l’activité d’un sous-ensemble de neurones du cortex moteur, qui sont normalement actifs lorsque l’animal réalise lui-même l’action. Plusieurs équipes ont vu dans ces résultats des points de ressemblance avec la théorie motrice. 16 Psycholinguistique PSYC-E102 3. Activation des régions motrices pendant des tâches de perception de syllabes < Pulvermüller et al. (2006), ont fait appel à l’imagerie par résonance magnétique fonctionnelle (IRMf), et ils ont enregistré l’activité cérébrale des participants pendant qu’ils répétait mentalement des syllabes avec une consonne labiale (/pi/ ou /pa/) ou avec une consonne dentale ( /ti/, /ta/), pendant qu’ils faisait mentalement des mouvements impliquant leurs lèvres ou leurs dents et lorsqu’il écoutaient les syllabes. Trois conditions : ✴ Une tâche de mouvement (les participants produisent des mouvements non linguistiques) ✴ Une tâche d’articulation (les participants prononcent de syllabes) ✴ Une tâche de perception (les participants écoutent des syllabes) Dans les 3 conditions, les résultats ont montré que l’activité dans le cortex moteur était différente selon le type de syllabe. ✴ Les syllabes avec une consonne labiale donnaient lieu à une activation dans la région corticale correspondant au contrôle moteur des lèvres. ✴ Les syllabes avec une consonne dentale, qui demandent un mouvement de la pointe de la langue, donnaient lieu à de l’activité dans la région corticale correspondant à la langue. 17 Psycholinguistique PSYC-E102 —> Des régions spécifiques du cortex moteur étaient activés pour les tâches de perception des sons de la parole. Même si ces études montrent de l’activité dans le cortex moteur lors de la perception de la parole, elles ne permettent pas d’affirmer que cette activité joue un rôle dans le processus de perception en soi. L’activité observée serait seulement une conséquence secondaire de l’activité dans les aires responsables de la perception (ce qu’on appelle un épiphénomène), sans vraiment contribuer à la construction d’une représentation perceptive. 3. In uence de l’activation motrice sur la perception < Meister et al. (2007) TMS = « Transcranian Magnetic Simulation » (TMS) = Simulation magnétique transcrânienne. La TMS est une technique qui permet de stimuler les régions du cerveau de manière non-invasive. On applique une bobine sur le scalp, et celle-ci va genrer un champ magnétique qui va induire une activité électrique locale dans la région cérébrale sous-jacente. Selon les paramètres de stimulation, la TMS permettra d’exciter ou d’inhiber sélectivement une région relativement précise du cortex. Dans l’étude de Meister est al. (2007), les participants passaient 2 tâches : ✴ Dans la condition verbale, ils entendaient des syllabes en partie noyées dans un bruit homogène, et ils devaient décider s’il s’agissait de /pa/, /ta/ ou /ka/. ✴ Dans la condition visuelle, ils devaient discriminer entre trois couleurs (rouge, vert, bleu). + condition contrôle. Les 2 conditions ont été calibrées (par l’ajout de bruit pour les syllabes, et par la saturation en couleur pour la condition visuelle) de façon à ce que le niveau de performance de base soit très similaire: environ 75% de réponses correctes. La stimulation était appliquée soit sur une portion du cortex moteur gauche soit au niveau du gyrus temporal supérieur gauche (région qui correspond aux aires sensorielles auditives). 18 fl Psycholinguistique PSYC-E102 Les résultats montrent une dégradation de la performance (de 79 % à 70 % de réponses correctes environ) dans la condition verbale uniquement lors de la stimulation du cortex moteur. Comme on pouvait s’y attendre, la performance dans la tâche de discrimination de couleurs n’était modifiée ni par la stimulation du cortex moteur, ni par celle du gyrus temporal supérieur. Si l’activité des régions motrices ne participait pas directement au processus de perception, on n’observerait pas la dégradation des performances spécifiques à la discrimination de phonèmes lorsque ces régions sont stimulées par le TMS. Ces résultats, avec ceux de Pulvermüller, appuient donc la conclusion : Que le cortex moteur est activé lors de la perception de la parole. Que l’information acoustique conduit à activer chez les auditeurs les aires motrices correspondant aux articulateurs actifs lors de la production. Que cette simulation des gestes articulatoires ou des commandes motrices contribue à l’identification des phonèmes. Contre-argument : pas d’associations systématiques entre la présente d’une lésion des aires motrices et des troubles de la perception de la parole ou de la compréhension à l’audition. Les résultats de recherche confirment l’ID que les mécanismes de la perception de la parole sont étroitement liés au système moteur, et qu’ils permettent une simulation interne des gestes articulatoires, qui pourrait faciliter la compréhension lorsque les conditions l’exigent. 19 ¬ ¬ ¬