parte_5.txt
Document Details

Uploaded by AutonomousHeliotrope
Full Transcript
Joan Ferre i Ferre 2 TEMARIO OPOSICIONES COIICV | TEMA 23 1. Introducción El uso de la palabra multimedia ha crecido de forma considerable hasta arrinconar al antaño omnipresente imagen y sonido , término al que realmente supera, pues se dispone hoy en día de un creciente número de medios por los qu...
Joan Ferre i Ferre 2 TEMARIO OPOSICIONES COIICV | TEMA 23 1. Introducción El uso de la palabra multimedia ha crecido de forma considerable hasta arrinconar al antaño omnipresente imagen y sonido , término al que realmente supera, pues se dispone hoy en día de un creciente número de medios por los que podrá transc urrir la comunicación, y multimedia no se limitará sólo a la comunicación visual y sonora. Ad emás, y esto también es algo cada vez más relevante, coexistirán un humano y un dispositivo e lectrónico alternándose como emisor o receptor de esa comunicación, hasta el punto de que ya hoy e n día ambos pueden tanto emitir como recibir mensajes por cualquier medio comúnmente usado, como la imagen y el sonido, cosa inimaginable hasta hace poco. De esta forma, y por poner dos eje mplos concretos, el teléfono móvil podrá escuchar e interpretar las órdenes humanas y una co nsola de videojuegos podrá ver e interpretar los movimientos del usuario, siendo así los disposi tivos tecnológicos también receptores, y no sólo emisores, de este tipo de estímulos. En este tema se analiza el procesamiento informatiz ado del contenido multimedia, básicamente imagen y sonido, así como las principales aplicacio nes y tendencias de hoy en día en este campo del conocimiento. 2. Analógico versus digital Escribía Zenón de Elea (490 - 430 a. C.) en su Paradoja de Aquiles y la tortuga que, tras darle a ésta una ventaja inicial en una carrera, Aquiles nu nca conseguía alcanzarla, pese a ser la tortuga bastante lenta y él extremadamente veloz. Según Zen ón, cuando Aquiles iniciaba su marcha, la tortuga gracias a la ventaja que el guerrero le dab a, ya había recorrido una cierta distancia. En el momento en que Aquiles llegaba a la posición ocupad a anteriormente por la tortuga, ésta ya había recorrido otro tramo, situándose por delante del co rredor, y así Aquiles nunca conseguiría alcanzar a la tortuga, pese a ser mucho más rápido que ella. Otra paradoja relatada por Zenón en sus “demostraciones de la imposibilidad del movimiento” , según las palabras usadas por José Ferrater Mora al hablar de las paradojas de Zenón en su definición de “absurdo” (1964, p: 39), es la conoci da como Paradoja de la dicotomía . Ésta reza que si alguien se dirige a un árbol nunca llegará a él, pues cuando haya recorrido la mitad de la distancia, le quedará la otra mitad, de la cual pri mero recorrerá la mitad, quedándole la otra mitad… y así, recorriendo tramos cada vez más peque ños, nunca llegará a su destino. Obviamente el mundo no funciona así y hoy en día se asume que el problema con las paradojas de Zenón es de planteamiento. Centrándonos en la Paradoja de la dicotomía , por ser la más sencilla de analizar, se puede afirmar sin duda que hoy en d ía existen herramientas matemáticas para resolverla. En época de Zenón no se conocía el Cálc ulo Infinitesimal y no se aceptaba, por tanto, Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Tratamiento de información multimedia TEMARIO OPOSICIONES COIICV | TEMA 23 3 que la suma de infinitos términos pudiese tener un resultado definido finito, cosa que daría solución a la paradoja de forma obvia, pues recorrer mitades sucesivas sí llevaría a recorrer finalmente la distancia completa. La forma de calcularlo sería co n una serie geométrica como la siguiente, que hoy en día se asume que converge a un valor finito: Otra de las soluciones comúnmente aceptadas para la s paradojas de Zenón se da haciendo uso de la Matemática Discreta, suponiendo un universo d iscreto, o sea dividiendo en este caso el espacio y el tiempo en pequeños pedazos iguales ent re sí, cuantizándolos . Así, volviendo a la Paradoja de la dicotomía , se puede afirmar que finalmente se llegará al árb ol, pues al final sólo quedará por recorrer el último intervalo de la discretización que se ha hecho de esa distancia, cosa que se conseguirá en el último ciclo de movimiento, pues no habrá división más pequeña posible que recorrer. Como lo que se pretende es el tratamiento informati zado de la información, es obvio que el Cálculo Infinitesimal no será fácilmente aplicable y que, e n cambio, una solución discreta sí será susceptible de ser informatizada con facilidad. O u sando lenguaje de Teoría de la Computación, para que un problema sea decidible necesitará consumir una cantidad finita de memoria y, por tanto, se deberá cuantizar la realidad para hacer abordable y, por tanto, res oluble dicho problema. Esta introducción sirve para ver que, aun partiendo de un universo y unas señales continuas, como por ejemplo el sonido, se deberá empezar por cuantizarlas para poderles dar de forma sencilla y efectiva un tratamiento informatizado. Como curiosidad, cabe señalar que aún hoy en día ha y debate en cuanto a la discusión “continuo” frente a “discreto”, aunque en términos bastante má s complejos y difíciles de comprender. Por ejemplo, ha habido experimentos como los de Craig H ogan, profesor de la Universidad de Chicago y director del Fermilab Center for Particle Astroph ysics, intentando demostrar que el universo conocido es un holograma, teoría que Hogan relacion a con la idea de que la cantidad de información en el universo observable pueda ser fin ita, y el espacio-tiempo una suerte de “realidad discreta”. De ser así, a la práctica el universo po dría suponerse discreto y no continuo, al menos a muy pequeña escala. 3. Tratamiento voz y sonido 3.1. Digitalización El tratamiento informático de la voz y el sonido ob ligará, como se ha visto, a cuantizar las señales que se capturan y, lógicamente esto deberá estar pr ecedido de un proceso de digitalización. Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Joan Ferre i Ferre 4 TEMARIO OPOSICIONES COIICV | TEMA 23 Hay que destacar que cuantizar y digitalizar no son estrictamente lo mismo. Al digitalizar convertiremos la señal analógica a su equivalente d igital, introduciendo un error que como máximo deberá ser igual a la sensibilidad mínima del apara to digitalizador. En cambio, a la hora de cuantizar, dependiendo de la calidad con la que se haga, o sea a la cantidad de cuantos en los que se divida el espectro, se volverá a introducir un e rror al acercar el valor digitalizado de la señal a l cuanto más cercano. Esta pérdida de calidad o distorsión será inevitabl e, pues de nuevo según la Teoría de la Computación el problema deberá consumir una cantida d de memoria finita y, para ello, la cuantización realizada deberá tener una cantidad fi nita de valores posibles. Puesto que la señal analógica real previsiblemente no encajará en esos cuantos que artificialmente se han decidido, se introducirán unos errores en la señal, que serán co mo máximo tan grandes como la mitad de la cuantización, pues se ajusta el valor de la señal r eal a su cuanto más cercano por arriba o por abajo. 3.1.1. Teorema de Nyquist-Shannon El teorema de muestreo de Nyquist-Shannon, inicialm ente planteado por Harry Nyquist y finalmente demostrado por Claude E. Shannon, hace r eferencia a la posibilidad de reconstruir una señal periódica continua a partir de una serie de m uestras tomadas de la misma, siempre que la frecuencia de las muestras sea al menos el doble de la frecuencia de la señal. Como se verá posteriormente, el oído humano está li mitado y, según autores, se considera que llega a una frecuencia auditiva máxima de entre 16 y 20 kilohercios. Así, por seguridad se toma el valor de 20.050 hercios como frecuencia máxima a di gitalizar y, aplicando el teorema de Nyquist- Shannon, se llega a los 44100 hercios usados habitu almente en las grabaciones de uso cotidiano. Esto no quiere decir que la reconstrucción de la se ñal vaya a ser perfecta o que no vaya a haber ruidos o distorsiones, ya que el teorema habla en t odo momento de muestreo de la señal y no, aún, de cuantización. Como se ha comentado antes, cuando se produce el mu estreo aún no se ha producido cuantización. O dicho de forma más comprensible, el valor de volumen de la señal que tomamos en el tiempo T puede tener infinitos decimales, el valor que tomamos en el tiempo T+1 también… pero esto posteriormente se cuantizará tomando valo res finitos dentro del rango de volúmenes permitido, cambiando así el valor original y, por t anto, introduciendo una distorsión que impedirá reconstruir fielmente la señal inicial. 3.2. El dominio del tiempo y de la frecuencia El enfoque dado hasta ahora al tratamiento informat izado al sonido ha sido el del dominio del tiempo. Esta forma de tratar el sonido es la más ob via, pues consideramos una señal de sonido como un valor de volumen en cada valor de tiempo, d e la forma que lo veríamos en un indicador unidimensional de volumen, llamados comúnmente vúme tros. Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Tratamiento de información multimedia TEMARIO OPOSICIONES COIICV | TEMA 23 5 Figura 1: Ejemplo de vúmetro La otra representación habitual del sonido en el do minio del tiempo es aquella que muestra su volumen en cada cuanto de tiempo, pero manteniendo en la representación gráfica los valores anteriores, de forma que gráficamente se va constru yendo la onda del sonido. Esta es la llamada representación de la forma de onda ( waveform en inglés): Figura 2: Representación de forma de onda Trabajar en el dominio de la frecuencia será distin to, pues la representación gráfica no relacionará amplitud (volumen) en un eje y tiempo en otro, sino que relacionará amplitud y frecuencia. Conceptualmente también es sencillo de comprender, aunque gráficamente es algo más complejo para ejemplos reales. Un ejemplo sencillamente visible sería el siguiente , en el que vemos cómo representar una señal seno periódica simple. A la izquierda se muestra en el dominio del tiempo, pues los ejes horizontal y vertical son tiempo y amplitud respectivamente, y a la derecha en el dominio de la frecuencia, pues los ejes horizontal y vertical son frecuencia y amplitud respectivamente: Figura 3: Representación en el dominio del tiempo ( izquierda) y de la frecuencia (derecha) Además, se sabe por análisis de Fourier que toda se ñal será simple o compuesta y que las señales compuestas estarán formadas a su vez por una combin ación de ondas simples con distintas Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Joan Ferre i Ferre 6 TEMARIO OPOSICIONES COIICV | TEMA 23 amplitudes, frecuencias y fases. Por tanto, cualqui er señal real podrá ser descompuesta, tratada, y también representada gráficamente, mediante su gráf ico amplitud-frecuencia. La lógica detrás del MP3 y otros formatos radicará en descomponer la señal acústica compleja en las señales simples que la componen, obviando aquel las señales de menor amplitud o las frecuencias fuera del rango audible por el ser huma no para conseguir comprimir los archivos, reduciendo la cantidad de información que se guarda . Esto, para sonido de origen “real” como la voz o la mayoría de los instrumentos musicales tend rá buenos resultados, pues efectivamente los sonidos reales estarán formados por composición de ondas más simples, pues son vibraciones de elementos sonoros como las cuerdas vocales, cuerdas de guitarras, percusión de objetos, etc. En cambio, para señales más complejas, cuya descomposi ción en señales simples no sea sencilla, como ruidos y otras señales de gran componente alea toria, los formatos basados en transformadas como MP3 y similares, introducirán distorsiones al no poder modelizar fielmente la señal de entrada mediante composición de señales más simples . Este proceso de conversión de la señal del dominio del tiempo al de la frecuencia se consi gue mediante el uso de transformadas como la de Fourier o la MDCT (Transformada de Coseno Discre to Modificada), que es la usada actualmente en la mayoría de los formatos de compre sión de audio, como el MP3, AAC o el OGG/Vorbis. 3.3. Estándares y formatos Una vez comprendido lo relativo a la digitalización de la información sonora, es interesante observar cómo se almacenarán estos datos para su tr atamiento. Llegado este punto es necesario conocer la diferencia entre los formatos de fichero , generalmente conocidos simplemente como formatos , y los códecs, o sea los sistemas de codificación y compresión de la información sonora. Para ejemplificar metodología, y en concreto operac ión sobre señales de audio, se trabajará con formato WAV y codificación LPCM (Modulación Linear por Impulsos Codificados, Linear Pulse Code Modulation por sus siglas en inglés), por trat arse de un formato sin compresión, de estructura sencilla y soportado prácticamente por todo tipo de software y reproductores de sonido. El formato de un fichero de sonido determinará en q ué forma se organiza la información dentro de él. En el caso del formato WAV, la cabecera almacen a información relativa al tipo de fichero, longitud, codificación, tamaño de muestra, número d e canales, frecuencia de muestreo, etc. Después, el espacio de datos contendrá las muestras de sonido, almacenadas según la codificación del fichero, su tamaño de muestra y su número de canales. El formato de archivo tradicionalmente más habitual era el WAV (Waveform audio file format), variante de RIFF (Resource Interchange File Format) desarrollado por Microsoft e IBM. De hecho, en el inicio de un archivo WAV, en su cabecera, el primer dato que encontraremos es la cadena de texto “RIFF” codificada en ASCII. Posteriormente ve ndrá indicado el tamaño del fichero (la cantidad total de muestras que contiene), el formato (cadena “fmt” seguida de los códigos que indiquen el tipo de codificación), el número de canales, la fre cuencia de muestreo, la tasa de bits, información de alineación de bloque y el tamaño de muestra. Pos teriormente vendrá la sección de datos, que Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Tratamiento de información multimedia TEMARIO OPOSICIONES COIICV | TEMA 23 7 también viene precedida por una pequeña cabecera, c on las muestras de sonido una tras otra. Este formato justamente es el mismo en el que se co difican los CD-Audio y es por ello que la grabación de archivos WAV a formato CD (y viceversa ) siempre ha sido inmediata. Cabe destacar del formato WAV que, puesto que el ta maño del fichero se indica en la cabecera, y que este campo que indica el número de muestras del fichero tiene una longitud fija de 32 bits, el tamaño máximo de un archivo WAV será por tanto de 4 gigabytes. A la tasa de 1411,2 kbps de un fichero WAV en calidad CD este fichero máximo será capaz de albergar poco más de seis horas y media de sonido. En puntos posteriores se hablará d e la tasa de bits y se explicará cómo se ha calculado la tasa de 1411,2 kilobits por segundo pa ra un archivo WAV estéreo de tamaño de muestra de 16 bits. En la actualidad, no obstante, los formatos prepond erantes son otros. Ha habido un cambio de prioridades, desde la menor exigencia de capacidad de proceso necesaria para tratar archivos WAV que interesaba antaño, hasta el menor tamaño de archivo deseado hoy en día, así como un avance técnico que permite una gran calidad de soni do en los códecs con compresión de sonido. Todo esto ha hecho que formatos y códecs como OGG-V orbis, MP3 o AAC pasen a ser los más habituales. Tabla I: Formatos de audio Formato contenedor Códecs Características OGG Vorbis Es el códec más usado en formato OGG. Puede ser usado en un amplio rango de frecuencias d e muestreo y para muy diversos fines (desde baja calidad como te lefonía, a alta calidad en sonido profesional). Usa técnicas de psicoacústica para conseguir compre sión eliminando señales menos audibles por el oído human o, al igual que el MP3. De hecho, OGG surge como alternativa de cód ec libre después de que el Fraunhofer Institute, desarrollad or del MP3, reclamase a diversos pequeños proyectos que pagasen una licencia o dejasen de usar MPEG Audio Layer III. La técnica que usa para la compresión es la MDCT (T ransformada de Coseno Discreta Modificada). Soporta hasta 255 canales de audio. FLAC Es un códec de compresión sin pérdida, como su nomb re indica (Free Lossless Audio Codec ), que consigue una reducción de tamaño del 50-60% respecto del WAV-PCM. Es mejor qu e aplicar compresión ZIP a un archivo WAV-PCM pues en lugar d e aplicar compresión en bruto sobre los datos analiza el soni do: compendia los silencios, calcula diferencias entre señales, i ntegra la señal de diversos canales, etc. Hasta 8 canales de audio. También puede presentarse con su propio formato de archivo contenedor. Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Joan Ferre i Ferre 8 TEMARIO OPOSICIONES COIICV | TEMA 23 Tabla I: Formatos de audio (continuación) Formato contenedor Códecs Características Opus Es un códec de compresión con pérdida. Se puede usar a muy diversas tasas de bits, pero su punto fuerte es un algoritmo de cálculo con muy baja latencia, o se a que se aplica a tramos de sonido muy cortos, por lo que es aplicabl e a usos que requieran un tiempo de respuesta muy rápido: telefo nía y voz sobre ip, streaming , videoconferencia, etc. Su latencia típica ronda l os 25ms, aunque a bajas tasas de bits puede llegar a l os 5ms, mientras que OGG o MP3 se sitúan en el rango de los 100ms. Fue desarrollado por la misma fundación (Xiph.Org) que Vorbis y el propio OGG. MP3 MPEG-1 Audio Layer III MPEG-2 Audio Layer III MPEG-2.5 Audio Layer III El MP3 es un formato de compresión con pérdidas bas ado en la MDCT (Transformada de Coseno Discreta Modificada), aunque antes de la MDCT aplica un filtro llamado PQF (Poly phase Quadrature Filter) que divide la señal acústica en 32 bandas a las cuales se les aplica la MDCT. Las distintas versiones de códecs MP3 básicamente d eterminan las tasas de bits y frecuencias de muestreo disponibles . El de uso más habitual es el MPEG-1 Audio Layer III permite su us o a 64, 128, 192, 256 y 320kbps, entre otras tasas de bits. MPEG-1 Audio Layer III, el comúnmente usado, sólo s oporta 2 canales y, aunque MPEG-2 Audio Layer III hasta 5.1, no es usado frecuentemente. AAC AAC Hace uso de MDCT (Transformada de Coseno Discreta M odificada) pura, aunque hace mejor uso de la ventana de datos a los que aplica la MDCT y mejora también la aplicación de técnicas de psicoacústica, eliminando señales difícilmente audi bles mediante un banco de filtros predefinido. Permite hasta 48 canales de audio, más una cierta c antidad de canales adicionales de subgraves y de datos. Más frecuencias de muestreo que el MP3, desde 8 has ta 96KHz. A igualdad de frecuencia de muestreo consigue mayor calidad de sonido que MP3. Es el usado en Youtube, iTunes, etc. 3.3.1. Canales En general el sonido digitalizado siempre había sid o mono o estéreo, esto es, podía tener uno o dos canales. En las primeras grabaciones hechas con micrófono únicamente tenía sentido la existencia de un canal, pues el micrófono tomaba só lo un juego de muestras. Posteriormente, para explotar la capacidad estereofónica del oído humano se planteó la grabación con dos micrófonos y Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019