Inteligencia artificial generativa en audio

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

¿Qué aprende un autocodificador?

Un autocodificador aprende una representación comprimida de una entrada, que pueden ser imágenes o secuencias de texto, por ejemplo, comprimiendo la entrada y luego descomprimiéndola de nuevo para que coincida con la entrada original.

¿En qué consiste la tarea del discriminador en una red generativa adversarial (GAN)?

La tarea del discriminador consiste en distinguir si un dato procede del conjunto de datos o si ha sido generado por el generador.

¿Qué son las redes neuronales gráficas (GNN)?

Son una clase de redes neuronales diseñadas para operar sobre estructuras de datos gráficas, en las que los nodos y las aristas representan entidades y sus relaciones, respectivamente.

¿Cuál es la función del mecanismo de atención en un Transformer?

<p>El mecanismo de atención representa la importancia que tienen otros tokens de una entrada para la codificación de un token determinado.</p> Signup and view all the answers

¿Qué permite Wav2Vec 2.0?

<p>Wav2Vec 2.0 permite el reconocimiento automático del habla gracias a un entrenamiento autosupervisado que es un concepto bastante nuevo en este campo.</p> Signup and view all the answers

¿Qué hace Tacotron2?

<p>Tacotron2 lee el texto en voz alta tomando las palabras escritas como entrada y las convierte en audio.</p> Signup and view all the answers

¿Cuáles son los objetivos de la banda sonora en una producción audiovisual?

<p>Los objetivos son crear atmósfera, guiar la emoción, proporcionar continuidad e identificar personajes y espacios.</p> Signup and view all the answers

¿Qué se evalúa en la naturalidad y expresividad del audio sintético?

<p>Se evalúa la calidad del sonido en función de su capacidad para imitar los sonidos reales.</p> Signup and view all the answers

¿Qué se centra en la inteligibilidad y coherencia del audio?

<p>Se centra en la claridad del habla, lo que condiciona la capacidad para comprenderlo.</p> Signup and view all the answers

¿Qué implica el entrenamiento desde cero de un modelo?

<p>Implica una inicialización aleatoria de los parámetros del modelo, que se espera converja en un conjunto válido.</p> Signup and view all the answers

¿Qué se busca al adaptar un modelo?

<p>Partiendo de un modelo válido, se busca transformarlo en otro modelo que se ajuste mejor a las características específicas de la tarea en cuestión.</p> Signup and view all the answers

¿Qué es un autocodificador variacional (VAE)?

<p>Un autocodificador variacional (VAE) aprende los parámetros de una distribución de probabilidad que representa los datos, obteniendo una visión más detallada y matizada de los mismos y generando nuevas muestras de datos de entrada.</p> Signup and view all the answers

¿Qué es una red generativa adversarial (GAN)?

<p>Una red generativa adversarial es un tipo especializado de red diseñada específicamente para generar información, y está compuesta por dos redes: un discriminador y un generador.</p> Signup and view all the answers

¿Qué es un Transformer?

<p>El Transformer es un componente utilizado en muchos diseños de redes neuronales para procesar datos secuenciales, como textos en lenguaje natural, secuencias genómicas, señales de sonido o datos de series temporales, incluso imágenes.</p> Signup and view all the answers

¿Qué problemas resuelve el aprendizaje profundo de audio?

<p>El aprendizaje profundo de audio resuelve problemas como la conversión de voz a texto y de texto a voz.</p> Signup and view all the answers

¿Qué es Wav2Vec 2.0?

<p>Wav2Vec 2.0 es uno de los modelos más avanzados en la actualidad para el reconocimiento automático del habla, gracias a un entrenamiento autosupervisado.</p> Signup and view all the answers

¿Cuál de las siguientes NO es una cuestión que plantean los modelos generativos?

<p>Las licencias de uso (A)</p> Signup and view all the answers

Flashcards

¿Qué hace un Autocodificador Variacional (VAE)?

Aprende parámetros de probabilidad que representan datos. Muestrea para generar nuevos datos de entrada.

¿Qué es una Red Generativa Antagónica (GAN)?

Redes con discriminadores y generadores. El generador crea datos y el discriminador distingue entre datos reales y generados.

¿Qué son las Redes Neuronales Gráficas (GNN)?

Funcionan con nodos y aristas que representan entidades y sus relaciones. Capturan patrones locales y globales.

¿Qué es un Transformer?

Componente para procesar datos secuenciales. Convierte una secuencia de entrada en una codificación y luego la decodifica.

Signup and view all the flashcards

¿Qué hace un sistema de voz a texto?

Extrae palabras del audio para convertirlas en texto.

Signup and view all the flashcards

¿Qué es Wav2Vec 2.0?

Modelo para reconocimiento automático del habla que utiliza entrenamiento autosupervisado.

Signup and view all the flashcards

¿Qué hace un sistema de texto a voz (TTS)?

Convierte texto escrito en audio, útil para leer textos en voz alta.

Signup and view all the flashcards

¿Qué es Tacotron2?

Modelo de secuencia a secuencia para TTS que asigna letras a características que codifican el audio.

Signup and view all the flashcards

¿Qué es Whisper?

Instrumento para convertir ficheros de audio en texto.

Signup and view all the flashcards

¿Qué es Trint?

Instrumento para convertir audio y video en texto.

Signup and view all the flashcards

¿Qué es el discurso?

El uso del lenguaje en un contexto más amplio.

Signup and view all the flashcards

¿Qué es la pragmática?

Es le uso del lenguaje en contexto.

Signup and view all the flashcards

¿Qué es la semántica?

Es el significado de los significantes.

Signup and view all the flashcards

¿Qué es la sintaxis?

Es el orden correcto de las distintas oraciones.

Signup and view all the flashcards

¿Qué es la morfología?

Estructura y formación de palabras.

Signup and view all the flashcards

¿Qué es la fonética?

Sonidos del habla.

Signup and view all the flashcards

¿Qué es la fonología?

Patrones sónicos.

Signup and view all the flashcards

¿Qué es tonalidad?

Timbre y color .

Signup and view all the flashcards

¿Qué es la banda sonora?

El conjunto musical.

Signup and view all the flashcards

¿Qué es un podcast?

Podcast de estructura fijas.

Signup and view all the flashcards

¿Qué es un modelo generativo?

Diseñado para crear nuevos datos o contenidos.

Signup and view all the flashcards

¿ Por que un modelo es generativo ?

Modelo matemático que genera nuevas realizaciones.

Signup and view all the flashcards

¿Qué implica generar datos para modelos?

Es un problema fundamental.

Signup and view all the flashcards

¿Qué implca el entrenamiento?

Implica entrenarlos a partir de datos reales.

Signup and view all the flashcards

¿Cómo operar en un modelo en mundo abierto?

Requiere que los modelos dispongan de características cero-shot.

Signup and view all the flashcards

¿Qué implica analizar la distribución de datos?

Imitar la distribución probabilística de los datos.

Signup and view all the flashcards

¿Que implica una tranformación de datos?

Sistema que transforma una muestra aleatoria en un dato realista.

Signup and view all the flashcards

¿Para que corregir diferencias entre originales?

Además de una transformación, se incluyen metodos para corregir sesgos o errores

Signup and view all the flashcards

¿Qué es muestreo del modelo?

Es el proceso para entrenarlo.

Signup and view all the flashcards

¿Cómo evaluar el modelo?

Recogida datos, Adapatar modelo, Muestreo, Evaluación, Mejorar e Implementación

Signup and view all the flashcards

¿Qué implica el entrenamiento?

Implica los parametros del modelo, que se espera converjan en un conjunto valido.

Signup and view all the flashcards

¿Qué implica adaptación?

Parte de un modelo valido,se busca transformarlo en otro modelo.

Signup and view all the flashcards

¿Como hacer un aprendizaje por transferencia?

Serie de ajustes en el modelo.

Signup and view all the flashcards

¿Qué es el aprendizaje multitarea?

En que tareas es diferente el modelo.

Signup and view all the flashcards

¿Cúales son elementos de AudioLM?

Los esquemas audio y texto.

Signup and view all the flashcards

¿Calidad del audio sintético?

Los parametros que hacen unica la calidad de sonido .

Signup and view all the flashcards

¿Qué hay que establecer calidad de sonido?

Naturalidad y expresividad e intelegibilidad.

Signup and view all the flashcards

¿Evaluación auditiva centrados en.

En que punto se centra.

Signup and view all the flashcards

¿Elementos de evaluacion subjuntiva?

Cuantificados los aspectos que valora los usuarios.

Signup and view all the flashcards

¿EValuacion perceptual?

Aspectos que valora las calidades subgetivas.

Signup and view all the flashcards

¿Calidad sónica y sonido?

Dos puntos aproximados calidad de referencia.

Signup and view all the flashcards

¿Qué es nota book LN?

El sistema operativo generado de audio .

Signup and view all the flashcards

¿Cómo generar un podcast?

Podcast sintetizado mediante varios datos.

Signup and view all the flashcards

¿Cines para el análisis visual y auditar?

No interactivo cerrar y no interactivo .

Signup and view all the flashcards

¿Metodotologías en vídeo juegos?

La recreación consiste o es emular

Signup and view all the flashcards

Study Notes

Tema 3. Inteligencia artificial generativa en audio

  • El tema cubre el Procesado Avanzado de Señal Audiovisual.

José Luis Blanco Murillo

  • Ingeniero de Telecomunicación (ETSIT-UPM).
  • Máster en Tecnologías y Servicios de Comunicaciones (SSR-UPM).
  • Doctor por la UPM.
  • Experiencia en proyectos de Ingeniería desde 2007.
  • Miembro del Grupo de Aplicaciones del Procesado de Señal desde 2008.
  • Profesor de la UPM desde 2015.

Presentaciones

  • Los temas que se tratan son inteligencia, artificial, generativa, y anotación automática.

Recapitulación del Módulo (Tema 1)

  • Contiene Arquitecturas de redes neuronales.

IA aplicada a producción y anotación (Tema 2)

  • Incluye Speech-to-Text (S2T), Text-to-Speech (T2S), y Subtitulado.

Ejemplo de registro

  • Se puede descargar un registro completo.

Reflexión personal

  • Se invita a la reflexión personal sobre las impresiones.

Breve cuestionario

  • Hay un breve cuestionario en Moodle.

Cuestionamiento

  • Se pregunta qué ha sucedido.

Lo que se echa en falta

  • Contexto: Entradilla, música de fondo, cambios de tema y efectos de sonido.
  • Ruido/variabilidad: ruido de micrófonos, ruido debido al aire, ruido ambiente, variaciones en voces y cambio de distancia al micrófono.
  • Otros elementos: sonido ambiente, diferencias en la fuente sonora y otros locutores.

Ejemplo práctico

  • En Moodle está disponible texto completo de partida.
  • Se puede generar un Podcast a partir de texto.
  • En notebookLM (puede requerir registro en Google) es posible 1) Seleccionar las fuentes, 2) Cargar las fuentes, 3) Utilizar el chat con la opción de resumen de audio y 4) esperar unos minutos.

Experimentación

  • Emoción: ¿Qué está pasando?, ¿Se entiende el idioma (inglés)?, ¿Cuántos locutores?, ¿A quiénes debería conocer?, ¿De qué hablan?, ¿Es de interés?, ¿Tiene sentido?
  • Calidad: ¿Se entiende bien?, ¿Tienen sentido las palabras?, ¿Son claras las voces?, ¿Son reconocibles?, ¿Se aprecian defectos?
  • Utilidad: ¿Es relevante?, ¿Cuál es su utilidad?, ¿Cómo me beneficia?

Elemento generativo

  • En el guion: estructura del mensaje (transformación, texto legal de IN y OUT Conversación, selección de conceptos y complementar información).
  • En el contenido final: mensaje (conexión de conceptos, selección y conexión de palabras).
  • En las voces generadas: sonidos (fonos), duraciones y pausas, y entonación (energía y tono).
  • Discurso, Semiótica, Semántica, Sintaxis, Prosodia y Acústica.

Elementos que podrías ser generativo

  • Paisaje sonoro: la totalidad de los sonidos que caracterizan un espacio, tonalidad, sonidos de fondo, señales y marcas sonoras.
  • Banda sonora: conjunto musical que acompaña una producción audiovisual (música original, música preexistente, efectos de sonido y diálogos).
  • Interacciones entre elementos (música-guion, música efectos, efectos-guion).
  • Se motiva la sensación de realismo, complemento del mensaje audiovisual para enriquecerlo, Mayor teatralización, Mayor inmersión.
  • Interacción multimodal, como doblaje automático.

Niveles de contenido

  • Discurso: Uso del lenguaje en un contexto más amplio, cómo se conectan las oraciones para garantizar la coherencia.
  • Pragmática: Uso del lenguaje en contexto y cómo se transmite el significado más allá de las interpretaciones literales.
  • Semántica: Significado, incluyendo significados de palabras e interpretaciones de oraciones.
  • Sintaxis: Cómo se combinan las palabras para formar frases, cláusulas y oraciones.
  • Morfología: Estructura y formación de las palabras, centrándose en los morfemas como las unidades más pequeñas de significado.
  • Fonología: Patrones sonoros y sus funciones dentro de una lengua.
  • Fonética: Sonidos del habla, propiedades físicas y cómo se producen y perciben.

Estructura del discurso

  • Se utiliza la pirámide de Freytag para comprender la estructura del discurso.
  • Exposición: Presentación de personajes, entorno y situación.
  • Acción ascendente: Eventos que intensifican la situación inicial.
  • Clímax: Punto álgido de la tensión en la historia.
  • Acción descendente: Descripción de las consecuencias y tensión decreciente.
  • Desenlace: Resolución de la historia y cierre de tramas.

Características generativas.

  • No es completamente aleatorio aunque no existen muestras que sean anteriores.
  • Analiza el conocimiento "a priori" permitiendo generar nuevos datos.

Los esquemas generativos empleados

  • Creación de contenido (textos, imágenes, música y código). El proceso de creación se acelera y se producen obras basadas en estilos específicos.
  • Innovación y diseño al tener diseños, estructuras y visualizaciones que sean novedosas.
  • Investigación científica por descubrimientos de nuevas combinaciones y generar datos sintéticos.
  • Mejora los procesos incrementando la eficiencia de las tareas.
  • Personalización para poder crear contenido específico.
  • Aplicaciones empresariales que innoven el manejo de la tecnología.
  • Anonimización puede generar una voz que no se parezca a ninguna en especial.

Modelos generativos

  • Un modelo diseñado para crear nuevos datos o contenido basado en patrones aprendidos de datos de entrenamiento.
  • Capaz de generar instancias similares, pero no idénticas.
  • Busca la capacidad de creación, puede producir texto, imagen, etc.
  • Analiza y aprende de características y estructuras en los datos.
  • Se usa desde arte al diseño.
  • Los tipos comunes son Distribución aproximada (GMMs), Transformación entrenada (Autocodificadores Variacionales), y Mejora continua (Redes Generativas Adversarias).
  • Este tipo de modelos crea preguntas sobre la autenticidad, derechos de autor, y potencial mal uso.

Modelos generativos vs los no generativos

  • La diferencia es evidente cuando el modelo incorpora esquemas de codificador y decodificador.
  • En un esquema no generativo, se espera que la salida sea parecida a la entrada.
  • En uno generativo, se asegura que las variaciones de entrada produzcan salidas plausibles.
  • La representación latente codifica la variación en los datos.
  • Parte de la estructura de los datos queda en * el codificador-decodificador.

Capacidades

  • Es la capacidad de muestrear un espacio latente, para generar muestras válidas.
  • Su entrenamiento es independiente de la estructura del modelo.
  • Existen múltiples maneras de entrenamiento, por los cuales se debe tener criterios para que la salida sea similar.

El concepto detrás del generador

  • Interpretar su funcionamiento como un "transformador" de datas.
  • Una representación latente, tiene su equivalente en el audio.
  • Se genera una variante de "representación latente" y se decodifica, en dónde su capacidad radica en recolectar la información.
  • Sencillamente, en la nueva representación (variación) se integra ruido.

Usos generativos

  • Producción: Se parte de un discurso o texto de índole tanto noticiable y relevante, con estructuras que ayuden a generar interés y mejorar la interacción, generando contenido de forma rápida.
  • Locutores: Se intenta evitar a personas o entidades, controlando la calidad de voz con voces complementarias y el control de desarrollo.
  • Sonidos: Se generan sonidos asociados a elementos abstractos (aire sólido), tratando de no repetir los sonidos, mejorando la experiencia de usuario.

¿Cómo volverlo generativo?

  • Disponer de datas (modelos): El proceso generativo se basa en modelos que a partir de sus datas de entrada tengan la capacidad de producir el resultado esperado.
  • Necesidad de aprendizaje: Son entrenados a partir de datas reales.
  • Mundo libre: Importante disponer de características"zero-shot", teniendo la capacidad de operar con data nunca vista.

Volverlo generativo con análisis de distribución de datos

  • Buscando "imitar" las características, completando espacios vacíos inexistentes pudiendo así, desarrollar uno que genere data.

¿Cómo hacerlo con la formulación de transformación de datas?

  • Se "transforma" una muestra aleatoria a una data "real".
  • La data original aleatoria es una estructura latente, que se aprende transformaciones

Forma para corregir diferencias

  • Se corrige un modelo analizando los datos y reduciendo sesgos y errores en lo ya existente, intentando evitar una discriminación entre lo real y sintético.
  • Evaluando el entorno evalúa sus resultados y verifica si funciona o no.

Proceso de entrenamiento

  • Recolección de datas: Seleccionarlos en las cualidades deseadas.
  • Entrenamiento del modelo: Se entrena bajo el algoritmo seleccionado
  • Muestreo: Se crean nuevos datos.
  • Evaluación: En base a la data generada se la compara con la original.
  • Mejora: Se optimiza el algoritmo y la data generada.
  • Implementación: Uso previsto del producto.

Entrenamiento vs Adaptación

  • El entrenamiento parte de cero, de forma original o aleatoria.
  • La adaptación se realiza en base a modelos preexistentes como punto de referencia, ajustando de acuerdo a data.
  • Aprendizaje por transferencia
  • Fine-tuning
  • Aprendizaje multitarea
  • Generación aumentada de recuperación.

¿Cuál es el proceso con los diferentes generadores?

  • Mezcla de gaussianas (GMM): Máxima verosimilitud.
  • Autocodificador Variacional (VAE): Congelación de capas, Ajuste fino Normalización
  • Red Generativa Adversaria (GAN): Duplicados de los modelos, y concentrarse en la mejora del esquema generativo.

Estructuras generativas y discriminativas

  • Generativo: Se aproxima a las distribuciones, donde se minimiza la diferencia entre "data generada y lo ya existente" (Máxima verosimilitud)
  • Discriminativo: Busca distinguirlo (Clasificación binaria).

Adversarios

  • Las muestras sintéticas son la clave para identificar la capacidad de cada una, condicionando a la data existente.

Ejemplo de esquemas generativos

  • Texto a audio, con adaptación o sin ella.

Calidad de audio sintético

  • Se debe prestar atención a las grabaciones
  • Naturalidad y expresividad (tono, entonación, respiración, expresión).
  • Intencionalidad y coherencia (claridad, sincronización del habla y expresión).
  • Se debe prestar atención a todo lo anterior.

Evaluación Perceptual

  • Objetiva: Mide aspectos objetivos de la calidad del sonido.
  • Subjetiva: Asegura que las mediciones coincidan con el usuario
  • "Medida perceptual": Se mide en base a métodos objetivos (modelado o creación) con síntesis y comparación.

Calidad y referencia

  • Se evalúa comparando al contenido original.

Sin referencia

  • Se estima su calidad sin el uso del original.

Proceso y datos del podcast

  • En primer lugar, cargar las fuentes y datas.
  • Analizar contenido con IA: Conectar datas y fuentes para un "conocimiento especializado".
  • Selección de datas: Extraer el contenido para su entendimiento mas facil.

NotebookLM

  • El sistema genera elementos de texto y audio, facilitando su entendimiento lineal con gran calidad.

En Videojuegos

  • Los diseños se adaptan tanto al diseño y emulación.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser