Máster en Ingeniería de Producción de Contenidos

Study Notes

El máster se centra en la ingeniería de producción y explotación de contenidos.
El profesor es Francisco Javier Casajús Quirós.
El departamento es el de Señales, Sistemas y Radiocomunicaciones de la ETS Ingenieros de Telecomunicación de la Universidad Politécnica de Madrid.

Voz: La generación de sonidos vocales e insonoros (nasales) involucra la vibración de las cuerdas vocales. Los sonidos sordos implican turbulencias en el flujo aéreo. La cavidad bucal funciona como un resonador, y la cavidad nasal como una trampa de ondas.
Música: El rango de niveles de audio musical está aproximadamente entre 70 dB y el umbral de dolor. El espectro de frecuencias oscila entre 50 Hz y 17 000 Hz.

La transformada de Fourier localizada (TFL): Se utiliza para analizar segmentos de señales en el dominio tiempo-frecuencia.
Solapar y sumar: Método para reconstruír una señal a partir de una serie de análisis de segmentos solapados.

Espectrograma: Representación gráfica del contenido espectral de una señal en función del tiempo, usualmente utilizando una escala de color. Las imágenes del espectrograma permiten una interpretación visual en el contexto del tiempo y la frecuencia.
Análisis de base perceptual: Analiza la forma en la que el oído humano percibe el tono y la frecuencia de sonido.
Síntesis de audio: Incorpora el conocimiento de bases perceptuales al reconstruír audio.

Diezmado-interpolación: Un proceso para reducir la señal de muestreo usando la interpolación de bandas.
Filtros especulares en cuadratura (QMF): Filtros con respuestas especulares y simétricas en la banda negativa.
Filtros en cuadratura en fase (PQF): Método para la síntesis de audio similar a QMF, pero con características de operación en fase.

Transformada Discreta del Coseno (DCT): Método para transformaciones de señales con bases a funciones cosenoidales. Los coeficientes espectrales de la DCT capturan mejor la energía en comparación con la DFT.
Transformada Discreta del Coseno Modificada (MDCT): Una versión de la DCT que reduce la distorsión al solapar ventanas, apropiada para la codificación de audio con alta resolución.
Cancelación de Alias en el Dominio del Tiempo (TDAC): Método para reducir la distorsión en el proceso de solape-suma de MDCT.

Método de Griffin y Lim (1984): Un método iterativo para la síntesis de audio que busca aproximarse a una forma de onda objetivo dada su representación espectral.
Autoencoders: Método de aprendizaje automático para la síntesis de audio que utiliza redes neuronales.
GAN (Generative Adversarial Networks): Método de aprendizaje automático para la síntesis de audio que se basa en competición generativo-discriminativa.