Tema 3 Percepción del Habla - Resumen PDF
Document Details
Uploaded by ImaginativeGadolinium
UNED
Tags
Summary
Este documento resume la percepción del habla, explicando conceptos como ondas sonoras, frecuencia, formantes, y síntesis del habla en el contexto de la audición acústica. Se enfoca en temas relacionados con la percepción de las vocales y consonantes, incluyendo la teoría motora y otros enfoques psicolingüísticos.
Full Transcript
**[Tema 3 percepción del habla ]** El sonido se produce cuando un cuerpo vibra y comunica la vibración a las moléculas del entorno (aire, agua) y esta energía es recibida por el oído. Cuando un objeto vibra en el aire, ocurre algo parecido, pero hay que imaginar la onda en 3 dimensiones como esfer...
**[Tema 3 percepción del habla ]** El sonido se produce cuando un cuerpo vibra y comunica la vibración a las moléculas del entorno (aire, agua) y esta energía es recibida por el oído. Cuando un objeto vibra en el aire, ocurre algo parecido, pero hay que imaginar la onda en 3 dimensiones como esferas concéntricas que se expanden desde el punto de la vibración. Los picos corresponderían a los momentos en que hay una presión positiva y las moléculas se juntan. Los valles a los momentos de presión negativa, en los que las moléculas se separan. Las piezas básicas del sonido son las ondas puras o simples, no se pueden descomponer en ninguna otra. Dependiendo de la velocidad de vibración las ondas varían en el número de ciclos que acaban en 1 segundo y eso da lugar a la variable "frecuencia". Las ondas que nacen de movimientos vibratorios rápidos tienen una frecuencia alta con muchos ciclos por segundo y se perciben como agudas. Las ondas que nacen de movimientos vibratorios lentos tienen una frecuencia baja con pocos ciclos por segundo y se perciben como graves. Las voces masculinas son más graves porque las cuerdas vocales de los varones son más largas. Desde el punto de vista perceptivo su unidad es el "decibelio" es la intensidad o amplitud del desplazamiento de la onda una medida relativa y no lineal que abarca desde cero decibelios o umbral de la audición, hasta más de 140 decibelios que es el umbral del dolor al sonido, una conversación normal se sitúa entre 40 y 60 decibelios. La suma de varias ondas simples da lugar a una onda compleja. Hay dos clases de ondas complejas: -Periódicas que tienen ciclos o patrones complejos de vibración que se repiten de forma periódica y se oyen con un sonido dotado de tono o tonalidad como las notas musicales. -Aperiódicas no se pueden apreciar ciclos repetitivos y se perciben como ruido sin tono. Las periódicas corresponden a los sonidos sonoros producidos por la vibración de las cuerdas vocales como B, D, G, M, N, R, L. Las aperiódicas que corresponden a los ruidos o sonidos sordos producidos por el paso del aire a través de un sitio estrecho S, F, 0, P, T, K. **Espectrogramas** En la década de 1940 los Bell Telephone Laboratories construyeron el primer espectrógrafo de sonido. El principio básico de un espectrógrafo es el mismo que el de un prisma que descompone la luz en sus colores integrantes, cuanto mayor era la energía más cantidad de corriente eléctrica circulaba por la aguja, calentando el papel encerado y oscureciéndolo en mayor medida. El tiempo en el eje horizontal, las diferentes frecuencias en el eje vertical y la amplitud en la mayor o menor intensidad de dibujo. El espectrógrafo se reveló especialmente útil para el análisis del habla humana y la espectrografía acústica la técnica reina en su estudio. Para percibir el habla son particularmente importantes los formantes, consisten en las franjas oscuras horizontales de gran concentración de energía que se observa en la mitad inferior del espectrograma, están numerados desde abajo como F1, F2, F3, F4 y F5. Los formantes corresponden a las resonancias de la garganta o frecuencias que resultan potenciadas debido a la forma del conducto o tracto vocal. **Síntesis del habla** El proceso de crear una señal de habla artificial recibe el nombre de síntesis del habla, el primer intento fue el Pattern Playback o reproductor de patrones de los laboratorios Haskins. En 1980 Denis Klatt desarrolló un sintetizador que genera una voz artificial muy parecida a la natural. **Rasgos generales de la percepción del habla** [rapidez ] Nuestra capacidad de resolución temporal acústica es muy limitada 7-9 unidades de por segundo. Cuando oímos hablar la velocidad a la que se transmiten los sonidos durante la comunicación cotidiana se encuentra entre 20 y 30 segmentos por segundo. [Robustez ] Nuestra capacidad de identificar los sonidos del habla es asombrosamente robusta [Complejidad ] la percepción del habla es un proceso muy complejo y automático [Automática ] sin apenas esfuerzo ni participación de la conciencia [Diferente a la de otros sonidos ] mayor resolución temporal distintas relaciones entre discriminación y identificación y otras propiedades que luego se analizan, discriminación exige comparar dos estímulos presentados al sistema perceptivo y determinar si son iguales o distintos identificación implica la comparación entre un único estímulo y una representación mental que tenemos almacenada en nuestra memoria somos peores en discriminación que en identificación [Ausencia de invariancia ] Invariancia fonética Es algo común, es lo que nuestro sistema operativo sabe capturar sin caer en error por las enormes variaciones de unas ondas a otras, que sea algo común es lo que cuesta tanto en hacer entender a los ordenadores en los programas de reconocimiento del habla. **Percepción de las vocales** Las aperturas corresponderían a las vocales y los cierres a las consonantes. Todas las lenguas del mundo tienen ambas clases de sonidos Triángulo articulatorio de las vocales **¿Un mecanismo especializado para percibir el habla?** Desde los comienzos de investigación experimental en la década del 50 hoy no tiene respuesta definitiva. Quienes defienden que el ser humano ha desarrollado un cerebro con un mecanismo especial distinto al de la percepción general de los sonidos, que se encarga de procesar una clase muy particular de sonidos: el habla humano. Esta hipótesis considera que el mecanismo actuaría como un verdadero módulo de funcionamiento rápido, automático, encapsulado y blindado a la influencia externa de otras partes del sistema perceptivo. Quienes consideran que lo especial es el estímulo (habla) no el mecanismo perceptivo. El lenguaje se percibe con el mismo mecanismo general con que se percibe cualquier sonido, el habla humana es un tipo de estimulación sobreaprendida, expuesto de forma continua y permanente desde que nacemos hasta la muerte, nuestro sistema perceptivo general tiene un nivel de entrenamiento extraordinario en esta clase de sonidos. **Papel de los formantes** Los formantes son las resonancias naturales del tracto vocal que se rigen por la acústica de tubos. En los formantes donde reside la clave de la percepción de las vocales. -la síntesis de vocales artificiales demuestra que cuando se alteran los formantes el sonido resultante suena a una vocal distinta. -el análisis de las vocales naturales mediante espectrogramas permite visualizar y medir los formantes. F1 y F2 son esenciales para la inteligibilidad de las vocales. F3, F4 y F5 cuando se incorporan al estímulo artificial añaden naturalidad. F2 es más alto cuanto más anterior es la vocal, cuanto más corto, más alta será la resonancia. F1 es más alto cuanto más abierta es la vocal. El abocinamiento que se produce en la vocal u tiene el efecto de alargar todo el tubo vocal tiende a bajar ambos formantes. **Variabilidad de los formantes** Una misma vocal difiere considerablemente en los valores absolutos de sus formantes. -alta variabilidad de los formantes, la misma vocal articulada por diferentes hablantes da lugar a una gran variedad de valores formánticos. -solapamientos entre las áreas vocálicas, vocales diferentes dichas por hablantes distintos coinciden a veces en el plano que tienen los mismos o muy parecidos valores para F1 y F2. **Normalización de las vocales** ¿Qué operaciones perceptivo-cognitivas debe efectuar un oyente para interpretar ambos sonidos muy distintos en sus frecuencias absolutas como la misma vocal? Debe llevar a término algún proceso de estandarización o normalización que transforme los valores formánticos, a una escala común que admita la comparación entre sí. Una primera explicación fue la "teoría de la razón entre formantes" la identificación de las vocales no depende de los valores absolutos de los formantes sino de la razón o proporción entre ellos. Dado que la razón F2/F1 no es suficiente para explicar todos los casos se han propuesto otras hipótesis adicionales sobre la normalización vocálica: -Los modelos de normalización intrínseca: consideran que cada vocal porta suficiente información acústica en sí misma para permitir la normalización. -Los modelos de normalización extrínseca: defienden que los oyentes necesitan información externa a la vocal para establecer un marco de referencia sobre las características del hablante edad, sexo, tamaño de su tracto vocal. Para los partidarios de la normalización intrínseca es importante la proporción F2/F1 y la vocal contiene información adicional que permite resolver la ambigüedad cuando esta se produce, los formantes superiores particularmente F3 y la frecuencia fundamental de la voz. Para los defensores de la normalización externa los oyentes interpretan a los formantes en referencia a un contexto más amplio del habla, las vocales individuales se perciben en relación con el inventario completo de vocales de un hablante determinado. Trabajo citado de los experimentos de Ladefoged y Broadbent. De estos trabajos se extrae que el oyente evaluaba los formantes de la boca en relación con el rango de valores contenidos en la frase precursora. **Percepción continua de las vocales** las vocales se perciben de forma continua Las consonantes oclusivas son percibidas de forma categórica y no continua **Percepción de las consonantes** Las consonantes son producidas por movimientos o gestos articulatorios rápidos que se imponen sobre los más lentos de las vocales, la coordinación de los gestos para las consonantes, con los gestos vocálicos se organizan en las unidades silábicas cuyo núcleo es la vocal, las consonantes no pueden formar el núcleo de una sílaba. **Transiciones formánticas** Por encima de todas las pistas destaca una por ser la más importante las transiciones de los formantes vocálicos. Las rápidas inclinaciones formánticas causadas por la presencia de una consonante se conocen como transiciones de los formantes son una pista clave para su identificación. Las transiciones de F1 y F2 son cruciales para percibir las consonantes sobre todo las de F2. La ausencia de invariancia acústica, la ausencia de algo constante en la representación espectrográfica que corresponda a una consonante particular. **Percepción categórica** Las consonantes especialmente las oclusivas, se perciben de forma categórica. Este estudio seminal de Liberman, Harris, Hoffman y Griffith en los laboratorios Haskins. Cuando F2 tiene un inicio bajo se oye b, si inicios intermedios se oye d y si es alto g. ¿Que ocurre con los estímulos intermedios?, Es como si existieran valores críticos o fronteras en la dimensión estudiada transición de F2 a cruzar de un lado a otro pasará más de una categoría de sonido a otra. Los experimentos que estudian la percepción categórica utilizan dos tipos de tareas cuyos resultados se comparan entre ellas: -tareas de discriminación -tareas de identificación En las tareas de discriminación los estímulos se comparan entre sí. Hay varios paradigmas, 1 paradigma AX se presenta un estímulo y coincide o no con otro que puede ser el mismo estímulo repetido u otro distinto el oyente tiene que responder igual o diferente. Tarea ABX se presentan los estímulos sucesivos a continuación se presenta un tercer estímulo y es uno de los dos anteriores. -En la tarea de identificación se presenta un único estímulo en cada ensayo y el oyente debe identificar o indicando la etiqueta o nombre del estímulo. **Contraste sordo sonoro** El parámetro estrella es la en la investigación psicolingüística sobre la percepción del lenguaje, el conocido como voice onset time VOT: consonantes oclusivas sordas=P, T, K. Sonoras=B, D, G. Mecánica de las consonantes oclusivas secuencia de los siguientes movimientos articulatorios: -movimiento 1: oclusión o interrupción completa durante decenas de milisegundos. -movimiento 2: liberación del aire, los órganos fonadores se separan bruscamente liberando el aire a presión dando lugar a una pequeña explosión. -movimiento 3: comienzo de vibración de las cuerdas vocales. El VOT es la distancia temporal entre los movimientos 2 y 3. Tomando el movimiento 2 como 0 el VOT puede ser positivo o negativo Un VOT de +45 ms significa que primero se produce el movimiento 2 y 45 MS más tarde ocurrió el movimiento 3. Un VOT de 0 ms indica que ambos movimientos coinciden en el tiempo. Cuando el movimiento 3 precede al 2 es un VOT negativo. Las oclusivas sordas se diferencian de las sonoras en que tienen un VOT más largo que estas. El estudio pionero de Abramson y Lisker 1967 también de los laboratorios Haskins crearon una serie de 31 estímulos artificiales para ser escuchado a través del Patter Playback. Parece que la percepción categórica confiere al oyente la ventaja de centrarse en los aspectos de la señal que son importantes para identificar los fonemas e ignorar variaciones no esenciales dentro del categoría fonética. **Percepción del habla en animales** Partidarios de la existencia de un mecanismo especializado para percibir el lenguaje vieron una percepción categórica, una prueba a su favor ya que esta surgía como una propiedad especial y típica de los sonidos del habla, esto cobró fuerza cuando a comienzos de 1970 apareció en Science el paradigmático trabajo de Peter Eimas y su equipo de la Universidad de Brown, se demostraba que la percepción categórica de algunos fonemas era innata en el ser humano se manifestaba desde los primeros meses de vida. 4 años más tarde Kuhl y Miller pusieron a prueba como percibían estos animalitos sílabas formadas por una oclusiva dental t o d y la vocal a. El experimento consistió en dos fases: -en la fase de entrenamiento las chinchillas fueron divididas en dos grupos y utilizaron solo los dos estímulos extremos de la serie. -cuando las respuestas de ambos grupos a los dos estímulos extremos fueron perfectas se pasó la fase de prueba y fueron los animales enfrentados a toda la serie completa de estímulos con todos los grados intermedios de b o t entre 0 y 80, los dos estimulos extremos fueron castigados o recompensados como antes, pero los intermedios fueron siempre recompensados. Así se dio un duro golpe a la percepción categórica como manifestación o prueba de un mecanismo especial humano. Los resultados procedentes de los animales no invalidan verse la posible existencia de un mecanismo especial en las personas, pero le restan peso al argumento de que había sido su buque insignia en la percepción categórica. **Teorías sobre la percepción del habla** El principal escollo que debe sortearse es la aparente ausencia de invariancia acústica. **Teoría motora** Es la teoría más antigua, fue propuesta en los laboratorios Haskins en la década de 1950 por Alvin Liberman, Franklin Cooper y Pierre Delatre, en un intento de explicar la ausencia de invarianza acústica del habla. Según la teoría motora el verdadero objeto de la percepción no es la señal acústica en sí, sino los movimientos articulatorios y las órdenes motoras que el cerebro envía a los órganos articuladores para producir el habla. Según sus defensores la capacidad humana para percibir los sonidos del habla no puede ser explicada en términos de un mecanismo general de audición o de aprendizaje perceptivo, sino que depende de un decodificador especializado en el lenguaje que es único y propio de los seres humanos. Otra evidencia a favor de la unión entre la producción y la percepción es el conocido efecto McGurk los oyentes combinan información visual sobre la producción del habla con información auditiva. Estudios con imágenes por resonancia magnética funcional sugieren que el cerebro activa zonas motoras del habla mientras percibe el lenguaje. Teoría realista directa 1980 Carol Fowler laboratorios Haskins, plantea igualmente que el objeto de la percepción es de tipo articulatorio o motor, niega la existencia de un módulo especializado en decodificar el lenguaje. Su base es la perspectiva ecológica de la teoría de la percepción directa, desarrollada por el psicólogo James Gibson, este enfoque ha tenido gran influencia en la psicología de la percepción. Haré la principal crítica que ha recibido la teoría realista directa se dirige contra la hipótesis de que los objetos propios de la percepción del lenguaje sean los gestos articulatorios. **Teoría auditiva general** Para esta teoría la percepción de la constancia o invarianza, no requiere la recuperación de gestos articuladores o el concurso de ningún módulo especial, en apoyo de esta posición teórica Kluender, Diehl y Killen demostraron que los pájaros podían ser entrenados a responder a estímulos naturales que comenzaban por el fonema d seguido de las distintas vocales y no responder a otros comenzaban por los fonemas B y G. Una derivación de la teoría general es la hipótesis de la potenciación auditiva. **Efecto del contexto en la percepción del lenguaje** En la percepción del lenguaje oral es extraer significados del sonido, en esta operación hay dos fuentes de información que fluyen al mismo tiempo una es la información acústica del estímulo que alimenta el sistema perceptivo-cognitivo de abajo-arriba son los procesos referidos como un bottom-up. La otra información fluye en sentido contrario y procede de los niveles superiores el procesamiento desde las representaciones de naturaleza sintáctica, semántica y pragmática, efecto del contexto y corresponde a procesos de arriba-abajo o top-down. **Restauración fonémica** La demostración más contundente del efecto del contexto sobre la percepción del lenguaje es el conocido fenómeno de la restauración fonética Richard Warren. El proceso de restauración fonémica necesitará algún material de entrada, ruido sobre el que apoyarse para reconstruir perceptivamente el fonema ausente y no funciona desde la nada estimular silencio. La influencia de las palabras en la percepción de los fonemas es perceptiva, mientras que la influencia de la frase es principalmente de tipo posperceptivo. Una de las evidencias más convincentes sobre el efecto de la información de tipo arriba-abajo en la percepción del lenguaje. Efectos arriba-abajo de alto nivel Los procesos de alto nivel ejercen su acción desde representaciones superiores a la palabra y tienen lugar no solo en el lenguaje oral, sino también en el escrito. La naturaleza del estímulo permite que aprovechemos información de arriba-abajo y necesitemos en consecuencia estimular menos información de abajo-arriba. Cuanta más información de contexto (arriba-abajo) tengamos, menos información entrante necesitaremos del estímulo (abajo-arriba).