Fundamentos de Compresión de Audio PDF
Document Details
Uploaded by ChivalrousPlutonium8456
Universidad Politécnica de Madrid
Francisco Javier Casajús Quirós
Tags
Summary
This document discusses the fundamentals of audio compression, covering various techniques and concepts. Topics include holophony, generalized panoramic sound, and spatial audio recording. It appears to be part of a master's program in production and content exploitation.
Full Transcript
Señal de audio y vídeo Fundamentos de Compresión de Audio Máster de formación permanente en ingeniería de producción y explotación de contenidos Francisco Javier Casajús Quirós Departamento de Señales, Sistemas y Radiocomunicaciones E.T.S. Ingenieros d...
Señal de audio y vídeo Fundamentos de Compresión de Audio Máster de formación permanente en ingeniería de producción y explotación de contenidos Francisco Javier Casajús Quirós Departamento de Señales, Sistemas y Radiocomunicaciones E.T.S. Ingenieros de Telecomunicación Universidad Politécnica de Madrid Índice 1. Imágenes sonoras Holofonía Sonido panorámico generalizado Grabación espacial desde un punto 2. Elementos de compresión perceptual 3. Codificación paramétrica Estéreo paramétrico PS HE-AAC 4. Dolby AC-4 Atmos 5. MPEG MPEG-D MPEG-H 2 / 78 Imágenes sonoras Índice 1. Imágenes sonoras Holofonía Sonido panorámico generalizado Grabación espacial desde un punto 2. Elementos de compresión perceptual 3. Codificación paramétrica Estéreo paramétrico PS HE-AAC 4. Dolby AC-4 Atmos 5. MPEG MPEG-D MPEG-H 3 / 78 Imágenes sonoras Holofonía Holofonía 4 / 78 Imágenes sonoras Holofonía Introducción Los sistemas holofónicos pretenden reconstruir en campo acústico en un volumen a base de altavoces situados en su periferia. El realismo es por tanto completo, permitiendo al oyente desplazarse dentro del volumen y manteniendo la posición virtual de las fuentes dentro del mismo, algo imposible con cualquiera de los sistemas anteriores. Se trata de sistemas esencialmente experimentales, cuyo fundamento resumimos a continuación. 5 / 78 Imágenes sonoras Holofonía Fundamentos de la holofonía ~n p0 = p(∂Ω) Sea un volumen Ω limitado por un contorno ∂Ω. La presión ~ R ~r0 sonora en cualquier punto del volumen puede ponerse como: " # P e−jk|R| ~ ~ ZZ ~ 0.~n − R ~n 1 + jk R p0 ~r p(~r) = ∇p ~ dS0 Ω (0, 0) ∂Ω ~ R ~ R 4π R~ 2π k= λ ∂Ω 6 / 78 Imágenes sonoras Holofonía Holofonía en la práctica Un sistema capaz de grabar y reproducir la presión y el gradiente de presión en el contorno de un recinto, podrá reconstruir el campo acústico en todo el recinto. Plantea los siguientes problemas: I Hacen falta micrófonos y altavoces de gradiente. I Se requiere un transductor por cada media longitud de onda, como mínimo. I Para frecuencias superiores a 1500 Hz, simplemente no caben. 7 / 78 Imágenes sonoras Sonido panorámico generalizado Sonido panorámico generalizado 8 / 78 Imágenes sonoras Sonido panorámico generalizado Introducción Está concebido para crear una aproximación al campo acústico en una región limitada (el área de escucha), pero permitiendo movimientos del oyente y una ubicación flexible de los altavoces de reproducción. En una configuración típica se sitúan M (p.e. 8) altavoces equiespaciados en una circunferencia en torno a la zona de escucha. ¿Qué señales habría que enviar por los altavoces para crear una imagen acústica de una fuente situada en un punto arbitrario de la periferia y audible en una zona amplia del centro?. En la solución de M. Gerzon (Ambisonic) se supone que todas las fuentes sonoras están suficientemente lejos del oyente como para considerar que a éste sólo llegan ondas planas. 9 / 78 Imágenes sonoras Sonido panorámico generalizado Onda plana Una onda plana arbitraria es una función s(t + ~k~r), donde ~k es el número de onda o frecuencia espacial. El vector ~r es el vector de coordenadas. Para un instante dado de tiempo la onda tiene los mismos valores en aquéllos puntos tales que: ~k~r = kx x + ky y + kz z = c es decir en un plano perpendicular a la dirección de propagación ~k, de aquí el nombre de onda plana. 10 / 78 Imágenes sonoras Sonido panorámico generalizado Onda plana monocromática Toda onda plana de interés puede descomponerse, mediante la transformada de Fourier, en superposición de ondas planas monocromáticas (sinusoidales) del tipo: ~ s(t + ~k~r) = aej(ωt+k~r) Por tanto el estudio de reconstrucción de onda planas puede reducirse al de una onda plana monocromática de frecuencia arbitraria. La expresión de dicha onda puede simplificarse ya que: ~ s(t + ~k~r) = aej(ωt) ej k~r Prescindiremos de la información temporal, usando el fasor: ~ S = aej k~r 11 / 78 Imágenes sonoras Sonido panorámico generalizado Onda plana monocromática en 2-D En una onda plana monocromática en 2 dimensiones el número de onda puede expresarse para su uso en coordenadas polares como: ~k = k cos ψ · ~ix + k sen ψ · ~iy El ácimut ψ es la dirección de propagación de la onda y k = 2π/λ. Así: ~k~r = kr(cos ψ cos φ + sen ψ sen φ) = kr cos(φ − ψ) El campo acústico creado por una onda plana de dirección de propagación ψ en un punto de coordenadas (r, φ) es: Sψ = aejkr cos(φ−ψ) 12 / 78 Imágenes sonoras Sonido panorámico generalizado Armónicos cilíndricos Una onda plana bidimensional puede descomponerse en serie de funciones de Bessel cilíndricas, con simetría de revolución alrededor del origen de coordenadas: ∞ X Sψ = aejkr cos(φ−ψ) = aJ0 (kr) + 2a j m Jm (kr) cos [m(φ − ψ)] m=1 que puede ponerse como: ( ∞ ) X m Sψ = a J0 (kr) + 2 j Jm (kr) [cos mφ cos mψ + sen mφ sen mψ] m=1 La información de dirección de la onda son los términos en cos mψ y sen mψ que multiplican a formas de onda básicas. Por tanto se pueden reproducir mediante el control de la amplitud de esas mismas formas de onda producidas por otras fuentes. Éstas serán los altavoces del sistema. 13 / 78 Imágenes sonoras Sonido panorámico generalizado Funciones de Bessel cilíndricas 14 / 78 Imágenes sonoras Sonido panorámico generalizado Construcción de una onda plana con ψ = 0 15 / 78 Imágenes sonoras Sonido panorámico generalizado Construcción de ondas planas mediante altavoces El n-ésimo altavoz del sistema de reproducción situado en un ángulo φn respecto al origen y produce una onda plana dada por: ( ∞ ) X m Sφn = an J0 (kr) + 2 j Jm (kr) [cos mφ cos mφn + sen mφ sen mφn ] m=1 La onda recreada por el sistema de altavoces es la suma de las producidas por todos ellos: N ∞ N X X X P = an J0 (kr) + 2 j m Jm (kr) an [cos mφ cos mφn + sen mφ sen mφn ] n=1 m=1 n=1 16 / 78 Imágenes sonoras Sonido panorámico generalizado Solución para altavoces equiespaciados El conjunto podrá construir la onda plana original si: N X aψ = an n=1 N X aψ cos mψ = an cos mφn n=1 N X aψ sen mψ = an sen mφn n=1 Para resolver el sistema y encontrar las ganancias de los altavoces an es preciso limitar el máximo de orden m para el cual se aplica, con objeto de no tener más ecuaciones que incógnitas. En general el orden máximo de la aproximación M debe cumplir 2M + 1 ≤ N. 17 / 78 Imágenes sonoras Sonido panorámico generalizado Nota: solución del sistema de ecuaciones El sistema de ecuaciones puede escribirse N −1 N −1 2πn m X X aψ ejmψ = an ejmφn = an ej N , m = 0,... M n=0 n=0 que es una serie de Fourier, por lo que: M M ! 2πm X X N an = aψ ejmψ e−j N n = aψ 1+2 cos m(φn − ψ) m=−M m=1 18 / 78 Imágenes sonoras Sonido panorámico generalizado Solución de orden 1 La solución para M = 1 da lugar al sistema Ambisonic de orden 1. Esta solución define de manera convencional las señales: W = aψ X = aψ cos ψ Y = aψ sen ψ De forma que las señales a aplicar a los altavoces son: 1 an = (W + 2X cos φn + 2Y sen φn ) N 19 / 78 Imágenes sonoras Sonido panorámico generalizado Leyes de orden 1 para 3 altavoces Leyes de Gerzon para 3 altavoces equiespaciados 1.2 L S C 1 RS 0.8 Para M = 1 y N = 2M + 1 = 3 0.6 tenemos: 0.4 aψ an = (1 + 2 cos ψ cos φn + 2 sen ψ sen φn ) 0.2 3 0 ï0.2 ï0.4 ï150 ï100 ï50 0 50 100 150 s (°) 20 / 78 Imágenes sonoras Sonido panorámico generalizado Solución de orden 2 La solución para M = 2 da lugar al sistema Ambisonic de orden 2. Esta solución define además las señales: U = aψ cos 2ψ V = aψ sen 2ψ De forma que las señales a aplicar a los altavoces son: 1 an = (W + 2X cos φn + 2Y sen φn + 2U cos 2φn + 2V sen 2φn ) N 21 / 78 Imágenes sonoras Sonido panorámico generalizado Leyes de orden 2 para 5 altavoces Para M = 2 y N = 2M + 1 = 5 tenemos: aψ an = (1 + 2 cos ψ cos φn + 2 sen ψ sen φn + 2 cos 2ψ cos 2φn + 2 sen 2ψ sen 2φn ) 5 Leyes de Gerzon para 5 altavoces equiespaciados 1.2 L S L 1 C R RS 0.8 0.6 0.4 0.2 0 ï0.2 ï0.4 ï150 ï100 ï50 0 50 100 150 s (°) 22 / 78 Imágenes sonoras Sonido panorámico generalizado de 2 a 5 altavoces I Síntesis de una onda plana con ψ = 0. I En estéreo sólo en el punto central. I Con 3 altavoces la región de escucha es algo mayor. I Con 5 es de 1/3 del radio del recinto. 23 / 78 Imágenes sonoras Sonido panorámico generalizado Campo acústico 24 / 78 Imágenes sonoras Sonido panorámico generalizado Síntesis con 21 altavoces 25 / 78 Imágenes sonoras Sonido panorámico generalizado Comparación, siendo (M, N ) (orden, número de altavoces) 26 / 78 Imágenes sonoras Sonido panorámico generalizado I Fijando el orden de la aproximación y aumentando el número de altavoces, se obtiene un campo que tiende a la onda plana deseada, pero con su desarrollo truncado a m = M. I Para un número fijo de altavoces, aumentar el orden de aproximación supone añadir a la onda plana deseada más términos de desarrollo en serie. I En este caso, cuando hay pocos altavoces, los términos kN + m se solapan con los de orden m, perjudicando la aproximación. I El mejor resultado se obtiene siempre para N = 2M + 1. I Para lograrlo habría que usar salas anecoicas, por lo que en la práctica N > 2M + 1 27 / 78 Imágenes sonoras Grabación espacial desde un punto Grabación espacial desde un punto 28 / 78 Imágenes sonoras Grabación espacial desde un punto Ambisonic en grabación I La solución de orden 2 para las ganancias de altavoces que recrean una onda plana es: 1 an = (W + 2X cos φn + 2Y sen φn + 2U cos 2φn + 2V sen 2φn ) N I En cada sumando aparecen dos factores. Uno depende del altavoz y otro del ángulo de incidencia de la onda. I Supongamos se pretende grabar dicha onda del natural para luego recrearla mediante altavoces. I Para ello es preciso grabar las señales W, X, Y, U, V y luego reproducirlas adecuadamente. 29 / 78 Imágenes sonoras Grabación espacial desde un punto Técnicas de grabación I Hay que enviar a cada altavoz una combinación distinta de señales W, X, Y, U, V dependiendo de su posición φn. I Observemos que: W = aψ = Sψ |r=0 lo que permite grabar W simplemente mediante el registro de la señal de audio en el origen de coordenadas. I Igualmente podemos observar que: X = aψ cos ψ = Sψ |r=0 cos ψ por lo que la señal X puede grabarse con un micrófono situado en el origen de coordenadas. 30 / 78 Imágenes sonoras Grabación espacial desde un punto Directividad I La directividad de un micrófono para grabar la señal X debe ser M (φ) = cos φ de forma que aplique una ganancia cos ψ a las ondas planas que llegan por la dirección ψ. I Razonando de igual manera concluiríamos que la señal Y requiere un micrófono con directividad sen φ. I Para las señales U y V , harán falta directividades cos 2φ y sen 2φ. 31 / 78 Imágenes sonoras Grabación espacial desde un punto Diagramas de directividad 90 1 90 1 120 60 120 60 150 0.5 30 150 0.5 30 180 0 180 0 I W proporciona la presión global. 210 330 210 330 240 300 240 300 I X e Y dan información 270 270 Izquierda-derecha M( !)=cos(!) Delante-detrás M( !)=sen(!) acerca de la dirección de la onda plana. 120 90 1 60 120 90 1 60 I U y V nos informan 150 0.5 30 150 0.5 30 acerca de la curvatura de la onda. 180 0 180 0 210 330 210 330 240 300 240 300 270 270 M(!)=cos(2!) M(!)=sen(2!) 32 / 78 Imágenes sonoras Grabación espacial desde un punto Dispositivos: Soundfield 1 omni, 3 bi Para orden 1 en 3 dimensiones 33 / 78 Imágenes sonoras Grabación espacial desde un punto Dispositivos: Eigenmike 32 transductores 2-D: N ≥ 2M + 1 3-D: N ≥ (M + 1)2 34 / 78 Imágenes sonoras Grabación espacial desde un punto Dispositivos para VR360: Biaurales 3DIO: 4 pares de orejas 8ball y unidad de proceso 35 / 78 Imágenes sonoras Grabación espacial desde un punto Dispositivos para VR360: Soporte de cámara Google Jump: el micrófono se atornilla en el centro 36 / 78 Imágenes sonoras Grabación espacial desde un punto Dispositivos para VR360: Ambisonic H3-VR: 4 cápsulas Zylia 37 / 78 Elementos de compresión perceptual Índice 1. Imágenes sonoras Holofonía Sonido panorámico generalizado Grabación espacial desde un punto 2. Elementos de compresión perceptual 3. Codificación paramétrica Estéreo paramétrico PS HE-AAC 4. Dolby AC-4 Atmos 5. MPEG MPEG-D MPEG-H 38 / 78 Elementos de compresión perceptual Espectro enmascarante 30 25 Da la forma espectral de las señales que son 20 inaudibles en presencia de otra s(t) con espectro Tonalidad (bark) Ŝ(ω) 15 10 I Convertimos la frecuencia a una escala perceptual en barks 5 0 0 5 10 15 20 dω Frecuencia (Hz) S(x) = Ŝ [ω(x)] dx 1 0.9 I Dispersamos el espectro de acuerdo con la Función de dispersión H(x) 0.8 0.7 función de diispersión H/(x) de la membrana 0.6 basilar (banda crítica): 0.5 0.4 0.3 E(x) = S(x) ∗ H(x) 0.2 0.1 0 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 Tonalidad (bark) 39 / 78 Elementos de compresión perceptual Espectro enmascarante: ejemplo 1 20 0 0.5 S(w) (dB) -20 s(t) 0 -40 -0.5 -60 -1 -80 0 10 20 30 40 0 5 10 15 t (msg) frecuencia (kHz) 20 20 0 0 S(x) (dB) E(x) (dB) -20 -20 -40 -40 -60 -60 -80 -80 0 10 20 0 10 20 tonalidad (bark) tonalidad (bark) 40 / 78 Elementos de compresión perceptual Umbral enmascarado Da la forma y el nivel espectral de las señales que son inaudibles en presencia de otra s(t) con espectro enmascarante E(x) -10 I Existe un umbral de audibilidad absoluto U (x), independiente -15 Función de sensibilidad (dB) -20 de E(x) -25 I Además la presencia de E(x) impide que se oigan señales que -30 están por debajo del umbral enmascarado M (x): -35 -40 M (x) = w(x)E(x) -45 0 5 10 Tonalidad (bark) 15 20 I w(x) es una función de sensibilidad: 20 10 Configuración de excitación (dB) 0 10 log w(x) = −14, 5 − x (dB) -10 -20 -30 Umbral enmascarado cuando el enmascarante es sinusoidal, y por: -40 -50 -60 10 log w(x) = −5, 5 (dB) -70 -80 0 5 10 15 20 25 Tonalidad (bark) cuando el enmascarante es ruidoso. 41 / 78 Elementos de compresión perceptual Codificador perceptual genérico subbandas subbandas cuantificadas Q1 I Se descompone la señal en T BANCO R BANCO bandas con TFL o MDCT A DE Q2 N DE I En paralelo se calcula el umbral x(n) S xˆ(n) enmascarado perceptual M (x) FILTROS M FILTROS I I Cada banda se cuantifica con DE S DE QN-1 I un número de bits adecuado ANÁLISIS Ó SÍNTESIS N para que el error de QN cuantificación quede por debajo del umbral enmascarado en esa banda CÁLCULO DEL UMBRAL ENMASCARADO 42 / 78 Elementos de compresión perceptual Pre-eco I Un bloque de análisis que es mucho más largo que un pre-eco transitorio genera pre-eco I Distribuye el error de cuantificación uniformemente en el tiempo. transitorio I El error se oye al principio, pero no al final audible ruido I El error se parece a la señal enmascarado que viene después I Los codificadores emplean t longitudes de bloque bloque (demasiado largo) adaptables 43 / 78 Elementos de compresión perceptual Codificación multicanal: AC-3 C R L I Codifica de forma normal el promedio de los 5 Lsurr Rsurr canales principales I Supone que los 5 canales difieren del promedio LFeffects en información especial, pero de parecen bastante a él I Las diferencias entre cada canal y el promedio Descodificador se codifican con poca información y se envían. AC-3 384 kbps L Codificador Lsurr C Rsurr R AC-3 LFeffects (0-120 Hz) 44 / 78 Codificación paramétrica Índice 1. Imágenes sonoras Holofonía Sonido panorámico generalizado Grabación espacial desde un punto 2. Elementos de compresión perceptual 3. Codificación paramétrica Estéreo paramétrico PS HE-AAC 4. Dolby AC-4 Atmos 5. MPEG MPEG-D MPEG-H 45 / 78 Codificación paramétrica Ideas principales I La codificación, transporte y reproducción de audio afectan irreversiblemente a su producción. I Funciones que tradicionalmente se realizaban en las DAW 1 , ahora se ejecutan en los sistemas de presentación. I Para ello debe enviarse la información adecuada, lo que altera los flujos de datos clásicos en producción. 1 Digital Audio Workstation 46 / 78 Codificación paramétrica Estéreo paramétrico PS Estéreo paramétrico PS 47 / 78 ters are quantized and coded into the ancillary part of the Codificación paramétrica mono bit stream yielding a backwards (mono) compati- Estéreo paramétrico PS Codificador 2ble system. mono bit l[n] Parameter m[n] Mono audio stream In the Bit stream multiplexer estimation & r[n] mono downmix encoder correlat volving bit stream IID, IPD, OPD, IC PS bit quence Parameter Bit stream stream tive wi quantization formatter are proc formed the com Figure 1: Generalized block diagram of PS encoder. M[k] an 2 Según Schuijers, 2004 TH 48 / 78 Codificación paramétrica Estéreo paramétrico PS Comentarios I A partir de los canales izquierdo y derecho (l[n] y r[n]) del estéreo, se estiman los parámetros que relacionan los canales desde el punto de vista de la información espacial: IID, IPD, OPD e IC. I Además se crea una mezcla reducida (downmix) monoaural m[n], que se codifica. Puede ser, por ejemplo, la suma de los dos canales. I Los parámetros del estéreo se codifican y se envían junto con la señal mono. 49 / 78 Codificación paramétrica Estéreo paramétrico PS Parámetros de la imagen estéreo Diferencias de intensidad entre canales (IID) como en audición binaural L(ω)L∗ (ω) P IID[b] = 10 log P b ∗ b R(ω)R (ω) Diferencias de fase entre canales (IPD) como en audición binaural X IP D[b] = ∠ L(ω)R∗ (ω) b Coherencia entre canales (IID) para representar reverberación L(ω)R∗ (ω)| P | b IC[b] = 10 qP P b L(ω)L∗ (ω) b R(ω)R∗ (ω) Diferencia de fase global (OPD) porque la fase absoluta importa al reconstruir X OP D[b] = ∠ L(ω)M ∗ (ω) b 50 / 78 follows. First, for each frame, the parameter positions Codificación paramétrica ni are extracted from the bit stream. For these parame- Estéreo paramétrico PS ter positions the vectors h11,ni , h12,ni , h21,ni and h22,ni are determined similar to the FFT-based decoder. This is illustrated in Figure 6. frame fs/2 fs/128 T frequency (k,m) bl th I ¿Dónde está el ahorro de bits? ac Sub-sub le bands I Los parámetros de la imagen estéreo tienen w una variación muy lenta. 0 0 n0 n1 H N-1 time (n) sy co su Figure 6: Time/frequency representation of (sub-)sub-band domain re signals qk,m [n] for a frame ranging from n = 0, 1,..., N 1. Illustrated are two parameter positions n0 and n1 extracted m from the bit stream. Ta For all n 6= ni the parameter manipulation matrices are an calculated by means of linear interpolation: co 51 / 78 sig- ing of scaling (IID), phase rotations (IPD/OPD) and de- Codificación paramétrica rac- correlation (IC). A block diagram of the PS decoder is Estéreo paramétrico PS shown in Figure 2. Decodificador PS nput are Mono audio m[n] Bit stream demultiplexer decoder re- mono Stereo reconstruction bit l[n] RB) stream bit stream De- d[n] ally correlation mix r[n] en- Bit stream me- PS bit decoder IID, IPD, stream OPD, IC the ati- 52 / 78 Codificación paramétrica Estéreo paramétrico PS Comentarios I A partir de la señal mono m[n] se crea otra decorrelada d[n] mediante un filtro adecuado (un paso-todo con múltiples polos, p.e.). I Las señales para los canales izquierdo y derecho se reconstruyen a partir de m[n] y d[n] en el dominio de la frecuencia. Si k indica la posición en una DFT: L(k) h11 (k) h12 (k) M (k) = R(k) h21 (k) h22 (k) D(k) Los coeficientes complejos hij varían con el tiempo. I Permiten restablecer las relaciones de intensidad fase y coherencia de los canales originales. Se determinan a partir de los parámetros de la imagen estéreo. 53 / 78 Codificación paramétrica HE-AAC HE-AAC 54 / 78 Codificación paramétrica HE-AAC Coding Réplicaofde Stereo Audio bandas espectrales SBR 3 Hybrid Output 1 AAC 32 QMF Sub-filter QMF decoder analysis bank synthesis Bit stream Demux PS SBR parameters SBR Hybrid Output 2 PS parameters QMF synthesis Figure 10: Structure of enhanced aacPlus. xclude quality I SBRlimitations inducedla by permite reconstruir other parte cod- alta del show espectro verydesimilar a partir la partescores, baja y except for excerpts parámetros de 4, 8, 10 ses besides parametric relación entrestereo, ambas.this experiment was Excerpts 4 (“Harpsichord”) and 8 (“Plucked string” without Ia mono Se empleacoder. The seconddelistening en codificadores test las velocidades calidad para significantly higher binarias másquality bajas. for parametric stereo. Th med to derive the actual coding gain of parametric contain many tonal components, a property that is I Se integró junto con PS en el codificador HE-AAC de MPEG. 3 complete Según coder.Breebart, 2005 For this purpose, a comparison problematic for waveform coders due to the large 55 / 78 a Dolby Índice 1. Imágenes sonoras Holofonía Sonido panorámico generalizado Grabación espacial desde un punto 2. Elementos de compresión perceptual 3. Codificación paramétrica Estéreo paramétrico PS HE-AAC 4. Dolby AC-4 Atmos 5. MPEG MPEG-D MPEG-H 56 / 78 Dolby AC-4 AC-4 57 / 78 Dolby AC-4 Sistema ! Mono/Stereo Mix 2.0- to 5.1- Channel PCM for Speakers or HDMI 5.1 or 7.1 AC -4 AC- 4 Surround Mix Dolby AC-4 Dolby AC-4 Bitstream Bitstream Dolby AC-4 Broadcast Dolby AC-4 Streaming Surround Encoder Encoder 7.1.4 Mix Physical Media Virtualized 2.0 PCM (With Height for Headphones Channels) Object Audio Objects-based Stream for Mix Home Theater Figure 1: Dolby AC-4 can carry conventional channel-based soundtracks and object-based mixes. Whatever the source type, the decoder renders and optimizes the soundtrack to suit the playback device. The AC-4 bitstream can carry channel-based audio, audio objects, or a combination of the two. The Dolby AC-4 decoder combines these audio elements as required to output the Todos los tipos most appropriate signals for the consumer—for example, stereo pulse-code modulation de producción pueden usarse en cualquier reproductor (PCM) for speakers or headphones or stereo/5.1 PCM over HDMI®. When the decoder is feeding a device with an advanced Dolby renderer—for example, a set-top box feeding a Dolby Atmos® A/V receiver (AVR) in a home theater—the decoded audio objects can be sent 58 / 78.1 Introduction he Dolby AC-4 system is a clean-sheet design that builds on state-of-the-art technology and Dolby AC-4 roven know-how to offer high audio quality, rich features, and excellent coding efficiency. This nables high-quality audio to be delivered at around one-quarter of the data rates commonly Decodificador sed in today’s HDTV services. To achieve these high compression efficiencies, AC-4 utilizes a umber of advanced coding tools. The figure below illustrates a decoder block diagram. AC-4 Decoder ASF Audio Spectral Frontend SAP Stereo Audio Processing MDCT Domain QMF Domain Time Domain A-SPX Advanced Spectral Extension A-CPL Advanced Coupling ASF/ A-JOC/ DE Dialog Enhancement SAP A-SPX A-CPL DE DRC SRC A-JOC Advanced Joint Object Coding SSF A-JCC A-JCC Advanced Joint Channel Coding DRC Dynamic Range Control igure 2: AC-4 Decoder I Para audio genérico (no voz) se emplea el Audio Spectral Frontend (ASF) que usa transformadas ey advancements over previous coding systems are discussed in the following sections. MDCT para representar la señal..2 Dual-Spectral Frontend I Utiliza bloques de cinco longitudes desde 128 a 2048 muestras. n perceptual audio I Los coding, the digital audio is compressed by removal of redundant and bloques cortos se emplean en los segmentos transitorios (tambores, p.e). relevant audio information from the signal. Redundancy is significantly reduced by transforming I Los bloques más largos son los que permiten mantener baja la velocidad binaria media. he audio signal to the frequency domain and applying entropy coding. AC-4 utilizes two different modified discrete cosine transform (MDCT) frontends to code the audio. or general audio content, the Audio Spectral Frontend (ASF) is used. ASF employs block witching between five transform lengths ranging from 128 to 2,048 samples. The use of multiple 59 / 78 mode enables better coding of panned signals than traditional tools (including “intensity Dolby stereo”) and offers more flexibility to process complex stereo signals. AC-4 The output of the SAP tool is either a Left/Right representation of the two channels or, if SAP is combined with Advanced Spectral Extension (A-SPX) and Advanced Coupling SAP: Stereo Audio(A-CPL), Processing a Mid/Side representation as shown in the following two figures. MDCT Domain QMF Domain Time Domain Left SASF SAP A-SPX A-CPL DRC DE SRC Right ! Figure 4: SAP Output (Left/Right)! ! MDCT Domain QMF Domain Time Domain Mid ! ASF SAP A-SPX A-CPL DRC DE SRC Side Figure 5: SAP Output (Mid/Side)! 5 ! ! 3.4 Advanced Spectral Extension I El módulo Advanced SAP separa losExtension Spectral canales (A-SPX) en izquierdo/derecho is a coding tool used(L-R) o centro/lado for efficient (M-S). coding of high I frequencies El modo M-S sólo seatemplea low bit rates. cuandoThis technique además improves quality se utilizan lasbyherramientas reconstructing higher de extensión espectral (A-SPX) y frequency de acoplosounds, entretransposing up harmonics from the lower and mid frequencies guided canales (A-CPL). by a side chain of helper data. 60 / 78 Dolby AC-4 Entrada a QMF: alta resolución en frecuencia A-SPX: Advanced Spectral Extension Se trata de una herramienta para la codificación de altas frecuencias con baja velocidad binaria. Las frecuencias altas se reconstruyen por transposición de armónicos de frecuencias medias y bajos, controlada por datos auxiliares. Equivale a SBR. A-CPL: Advanced Coupling Calcula las correlaciones entre canales estéreo o multicanal. Las señales se codifican de forma eficaz mediante un codificador de forma de onda para el audio correlado y un conjunto de parámetros para recrear las relaciones espaciales (desde el punto de vista perceptual) entre los canales. Es similar a PS. 61 / 78 reduced set of objects that is determined by the A-JOC encoder. The reduced set comprises a smaller number of spatial object groups (for example, seven in the example illustrated Dolby below), which are coded directly by the core coder. The reduced set of objects may be AC-4 obtained using a similar approach to spatial coding. The coded objects are accompanied by the object audio metadata (OAMD), which describes the properties of the audio objects. The A-JOC Advanced Jointfigure Object Coding below outlines the basic principle of the A-JOC decoder tool. Object Audio Metadata A-JOC Data Spatial (Object) Groups A-JOC (e.g. 16) Upmix Spatial (Object) Matrix Groups (e.g. 7) and LFE Pre-mix Matrix Decorrelator Figure 8: Basic Principle of A-JOC Decoder Tool I Aprovecha las dependencias ! entre objetos para aumentar la eficacia de la codificación 7 mediante un modelo paramétrico ! de base perceptual. I La base del modelo paramétrico es un conjunto reducido de objetos calculados por el codificador A-JOC. Este conjunto es más pequeño (7 en la figura) que el total (16), y se codifican de forma directa. I A los objetos codificados (7) acompañan los metadatos de audio (OAMD) para describir las propiedades de todos los objetos (16). 62 / 78 Dolby The optimal downmix is automatically chosen to provide the best audio quality for a AC-4 given multichannel signal. The encoder controls how the height channels are mixed to the horizontal channels. The parametric model is scalable in bit rate. A-JCC Advanced Joint Channel Coding A-JCC Data Immersive Channel A-JCC Based (e.g. 7.1.4) Downmix Channels Upmix (5.1) Matrix Pre-mix Decorrelator Matrix Figure 9: Basic Principle of A-JCC Decoder Tool 3.8!Coding Performance and Coding Tool Use Permite la codificaciónAC-4 eficaz de la señales multicanal para inmersión sonora, incluyendo la provides a 50% compression efficiency improvement on average over Dolby Digital representación de formatos 7.1.4 y 9.1.4 mediante una mezcla reducida de canales y datos Plus across content types ranging from mono to immersive audio. paramétricos. The table below provides an overview of what level of audio quality is achieved given a I La mejor mezcla certain reducida se selecciona de forma automática para optimizar la calidad de audio de content type and bit rate. The good and excellent quality statements are intended to una señal multicanal dada. match the MUSHRA listening test result scale and are based on both internally and I El codificador controla laconducted externally mezclalistening de lostests. canales de elevación con los horizontales. I La velocidad binaria del modelo paramétrico es escalable. Good Quality Excellent Quality 63 / 78 With Dolby AC-4, dialogue enhancement is instead implemented by utilizing the dramatically DE Parameters higher processing power of the audio encoder to analyze the audio stream and generate Dialogue a highly (If Available) Signal Dolby DE Analysis reliable parametric AC-4 description of the dialogue, whether or not a separate dialogue track is DE Control available. These parameters are sent with the audio in the AC-4 stream and used by the playback Figure 13: Dialogue Enhancement for Channel-Based Content (Encoder Functionality) device to adjust the dialogue level under user control. DE Dialogue Enhancement Mixed Audio Signal Mixed Audio Signal Matrices Application DE Parameters DE Matrices DE Controls Calculations Controls DE Parameters Dialogue (If Available) Signal DE Analysis DE Control User Interface Figure 14: Dialogue Enhancement for Channel-Based Content (Decoder Functionality) Figure 13: Dialogue Enhancement for Channel-Based Content (Encoder Functionality) If the dialogue is available as a separate audio track, the encoder creates the parameters I El usuario controla el nivel del diálogo respecto based on thealjoint sonido deoffondo. analysis the mixed audio signal and the separate dialogue signal. Mixed Audio Signal I Si no está separado, el reproductor ha de extraerlo These parameters dearelos canales more recibidos. precise than those extracted from the mixed audio signals as Matrices I En AC-4 este proceso Application described previously de realiza en el codificador (que and es allow más more precise dialogue potente), creando adjustments in the decoder. una descripción paramétrica del diálogo, haya o no una pista separada para el mismo. Alternatively, if desired (for example, to perform language substitution), the dialogue and DE Parameters I Los parámetros DE se transmiten Matrices para que el reproductor los use para ajustar el volumen diálogo con DE Controls Calculations control del usuario. ! Controls ! 64 / 78 render to higher numbers of speakers with a high degrees of flexibility. ! Different products require different rendering capabilities in addition to the core and full Different products Dolby requireSystem Dolby Playback different rendering capabilities in addition to the core and full decoding capabilities. The picture below shows that a simple renderer only capable of (e.g. AVR) decoding AC-4 capabilities. The picture below shows that a simple renderer only capable of outputting stereo and 5.1 is sufficient in many cases, while an advanced render is needed to outputting Broadcast stereo and 5.1 is sufficient in many cases, while an advanced render is needed to render to higher numbers of speakers with a high degrees of flexibility. PCM Advanced render numbers of speakersAC-4 to higherBitstream with a high degrees of flexibility. Reproducción Broadband Formatter Decoder Renderer (Flexible Number Dolby Playback System of Speaker Feeds) (e.g. AVR) Dolby Playback System (e.g. AVR) Figure 19: Broadcast AVR Playback System Broadcast Bitstream AC-4 Advanced PCM Broadband Formatter Decoder Renderer Advanced PCM Broadband Bitstream Formatter Dolby Playback System AC-4 Decoder Renderer (Flexible Number of Speaker Feeds) Renderer": (Flexible Number (e.g. TV) of Speaker Feeds) I En audio basado en Broadcast PCM (2.0 Ch) Figure 19: AVR Playback System Bitstream System Figure 19: AVR Playback AC-4 Simple objetos (OBA) emplea Broadband Formatter Decoder Renderer PCM (Up to 5.1 Ch) objetos de audio y sus Dolby Playback System (e.g. TV) Dolby Playback System (e.g. TV) meta-datos: tipo, Figure 20: TV Playback System PCM (2.0 Ch) Broadcast PCM (2.0 Ch) posición, divergencia, etc. Broadcast Bitstream AC-4 Simple In other playback Broadband conditions the Formatter Bitstream renderer Decoder AC-4 can be combined with Renderer Simple a virtualizer PCM (Up to 5.1 Ch) to efficiently Broadband Formatter Decoder Renderer PCM (Up to 5.1 Ch) I Para cada objeto provide immersive audio experiences over headphones or stereo loudspeakers, which is well suited to portable use cases. determina la mejor forma Figure 20: TV Playback System Figure 20: TV Playback System posible de recrear su Dolby Playback In other playback System conditions (e.g. Mobile Device) the renderer can be combined with a virtualizer to efficiently posición, dada la In other playback conditions the renderer can be combined with a virtualizer to efficiently provide immersive audio experiences over headphones or stereo loudspeakers, PCM for Headphones which is well disposición de altavoces provide Virtualized Broadcastimmersive audio experiences over headphones or stereo loudspeakers, which is well suited to portable use cases. suited Bitstream to portable use cases. Broadband Formatter AC-4 Decoder Virtualizing Renderer PCM (2.0 Ch) Virtualized disponible. Dolby Playback System (e.g. Mobile Dolby Device) Playback System (e.g. Mobile Device) PCM for Headphones Figure 21: Mobile Device Playback System Virtualized PCM for Headphones Broadcast Virtualizing Virtualized Broadcast Bitstream AC-4 PCM (2.0 Ch) Broadband With the successful launch of DolbyDecoder Atmos AC-4 in the home theatre world, Formatter Bitstream Renderer Virtualizing (2.0 Ch)there is an installed Virtualized PCM 65 / 78 Dolby AC-4 ! Reproducción en Atmos means that even though there is currently no AC-4–capable AVR, it is possible to provide an immersive experience building on the success of Dolby Atmos. Dolby Playback System Dolby AVR (Support for Current Generation AVR) or Soundbar Broadcast Bitstream AC-4 Dolby MAT Via HDM H DMI Advanced Broadband Formatter Decoder Formatter Renderer Figure 22: Connectivity to Current Dolby Atmos AVRs 6.3 Dynamic Range Control (DRC) A raíz del lanzamiento de Dolby Atmos para el cine doméstico, han aparecido un conjunto de sistemas The Dolby AC-4 decoder applies DRC to tailor the dynamic range and the typical output level de inmersión sonora que pueden recibir canales de audio y objetos a través de HDMI mediante to suit the listening scenario. As outlined in Section 2, implementing DRC in the QMF transmisión de audio con metadatos (MAT). domain enables powerful multiband and multichannel processing which improves quality over previous wideband approaches. Dolby AC-4 supports a number of DRC modes to adapt the content to different listening environments and playback scenarios. Each mode is associated with a type of playback 66 / 78 Dolby AC-4 DRC Dynamic Range Control ! drc_output_level_to 0 dBFS I En AC-4 se definen cuatro modos de control de margen dinámico para los diferentes entornos de escucha. –5 DRC Decoder Mode ID 2 & 3 I Cada entorno afecta a un tipo de Portable Profile Range (Speaker & Headphone) dispositivo de reproducción y contiene –10 Decoder TRL—as Per Device Requirements guías para definir los niveles de referencia del decodificador. –15 drc_output_level_from drc_output_level_to I A cada uno de los cuatro modos normalizados corresponde un intervalo –20 DRC Decoder Mode ID 1 Flat-Panel TV Profile Range de niveles de salida. Decoder TRL—as Per Regional Recommendations I Además existen otros cuatro modos –25 drc_output_level_from definibles por el usuario. drc_output_level_to DRC Decoder Mode ID 0 Home Theater Profile Range –30 Decoder TRL = –31 drc_output_level_from –35 dBFS Figure 23: Playback Device Target Reference Level and DRC Profile Mapping An AC-4 decoder may be provisioned to align with a number of device categories and TRL: Target Reference Level applications along with how the target reference level (TRL) parameter maps to the 4 decoder dynamic range control modes as shown in Figure 23. For example, if –23 dBFS is 67 / 78 selected for the target reference level (TRL), the AC-4 DRC Decoder Mode ID (representing Dolby Atmos Atmos 68 / 78 Dolby Atmos Propósito I Atmos se creó con el propósito de conseguir mayor precisión en la ubicación y movimiento de fuentes sonoras virtuales. I Se destina a salas cinematográficas, en las que dichas propiedades deben alcanzarse para la mayor parte de los espectadores en un área extensa dentro de la sala. I Ello obliga a introducir un número suficiente de altavoces en el contorno y techo. I Además se pretende que el sistema funcione correctamente para las múltiples disposiciones de altavoces que pueden encontrarse. 69 / 78 Dolby Atmos Altavoces en sala I Es un 7.1.2 en esencia pero… I Cada uno de los altavoces admite control individual. I Se puede producir para 60, pero la reproducción depende de la sala. 70 / 78 A Dolby Atmos mix consists of three primary elements: Dolby Atmos Bed audio (or bed material): Channel-based premixes or stems (including their multichannel panning) Dentro de ATMOS Object audio (or objects): Mono or stereo soundtrack content that have dedicated panning (via Dolby Atmos metadata) Dolby Atmos metadata: Panner automation for objects, plus additional metadata Una mezcla Dolby Atmos contiene tres elementos: Bed audio Figure 1-1 Simplified Premezclas Dolby Atmos of submezclas Block Diagram basadas en 7.1.2, incluyendo su panorámica multicanal. Object audio Hasta 118 elementos (mono o estéreo) de la banda sonora que se pueden situar en cualquier posición del espacio 3D de la sala. Metadata Control panorámico (dinámico) de cada uno de los objetos. Los metadatos son procesados en reproducción por la RMU (Rendering and Mastering Unit), que controla los altavoces. ® Authoring for Dolby Atmos Cinema Sound Manual 1 71 / 78 7.1 or 5.1 channel-based mixes Record a print master Dolby Play back a print master Atmos Connect a machine to the RMU and its renderer The Monitor application includes a bar meter, object signal present indicators, and an Herramientas de producción: Monitor object positional display. It also provides the active speaker configuration, which contains signal present indicators and speaker mutes. Controls (such as mute and attenuation) are provided for B-chain control. I Los puntos amarillos (arriba-izda) representan los objetos existentes. I Debajo está el plano de altavoces de la sala. I A la derecha, la vista 3D de los objetos en el espacio sonoro. Figure 1-7 I Los medidores Dolby Atmos "beds combinan.objects". Monitor Application 2 I La opción "Mode"permite comprobar la compatibilidad con 5.1 y 7.1. 1.5 Dolby Atmos Panner Plug-in Use the Dolby Panner plug-in to position audio objects (such as effects) in a three- dimensional audio field. Panner plug-ins are inserted on each Pro Tools mono or stereo 72 / 78 track designated for an object. Plug-in panner position and other Dolby Atmos metadata Dolby can be written to Pro Tools automation playlists. Pro Tools sends the automation Atmos metadata to the RMU (via Ethernet), along with audio from Pro Tools outputs to the Herramientas de producción: RMU (via MADI), Panorama for rendering during monitoring or print-master recording. I Existe un controlador para cada pista de objeto. I No afecta al audio, que es una pista mono para la RMU, sino que crea los meta-datos que se envían a ésta. I La RMU se encarga entonces de ubicar el objeto en la sala. 73 / 78 MPEG Índice 1. Imágenes sonoras Holofonía Sonido panorámico generalizado Grabación espacial desde un punto 2. Elementos de compresión perceptual 3. Codificación paramétrica Estéreo paramétrico PS HE-AAC 4. Dolby AC-4 Atmos 5. MPEG MPEG-D MPEG-H 74 / 78 MPEG MPEG-D MPEG-D 75 / 78 MPEG MPEG-D Conceptualmente la norma MPEG-D es muy parecida a AC-4, aunque difiere en los detalles y no está orientada a audio en 3-D. Sin embargo, en el proceso de decodificación de la señal añade entre otras cosas unaETinterfaz HERRE AL. de efectos. PAPERS SAOC parameters Insert Effect objects effects SAOC Effects interface parameters SAOC parameters Object Object Remaining objects Downmix splitter combiner Downmix Effect configuration Object Send effects extractor signals Fig. 11. The effects interface module. 76 / 78 MPEG MPEG-H MPEG-H 77 / 78 MPEG MPEG-H El manejo de objetos de audio y audio 3D se ha desarrollado en MPEG-H. HERRE et al.: MPEG-H 3D AUDIO—THE NEW STANDARD FOR CODING OF IMMERSIVE SPATIAL AUDIO 773 Gira en torno al codificador unificado de voz y audio (USAC-3D) que se desarrolló para MPEG-D. La novedad principal está en los renderer"que incluyen: 1. Uno tradicional para canales de audio. 2. Para objetos y metadatos.