Podcast
Questions and Answers
¿Qué aprende un autocodificador?
¿Qué aprende un autocodificador?
Un autocodificador aprende una representación comprimida de una entrada, que pueden ser imágenes o secuencias de texto, por ejemplo, comprimiendo la entrada y luego descomprimiéndola de nuevo para que coincida con la entrada original.
¿En qué consiste la tarea del discriminador en una red generativa adversarial (GAN)?
¿En qué consiste la tarea del discriminador en una red generativa adversarial (GAN)?
La tarea del discriminador consiste en distinguir si un dato procede del conjunto de datos o si ha sido generado por el generador.
¿Qué son las redes neuronales gráficas (GNN)?
¿Qué son las redes neuronales gráficas (GNN)?
Son una clase de redes neuronales diseñadas para operar sobre estructuras de datos gráficas, en las que los nodos y las aristas representan entidades y sus relaciones, respectivamente.
¿Cuál es la función del mecanismo de atención en un Transformer?
¿Cuál es la función del mecanismo de atención en un Transformer?
¿Qué permite Wav2Vec 2.0?
¿Qué permite Wav2Vec 2.0?
¿Qué hace Tacotron2?
¿Qué hace Tacotron2?
¿Cuáles son los objetivos de la banda sonora en una producción audiovisual?
¿Cuáles son los objetivos de la banda sonora en una producción audiovisual?
¿Qué se evalúa en la naturalidad y expresividad del audio sintético?
¿Qué se evalúa en la naturalidad y expresividad del audio sintético?
¿Qué se centra en la inteligibilidad y coherencia del audio?
¿Qué se centra en la inteligibilidad y coherencia del audio?
¿Qué implica el entrenamiento desde cero de un modelo?
¿Qué implica el entrenamiento desde cero de un modelo?
¿Qué se busca al adaptar un modelo?
¿Qué se busca al adaptar un modelo?
¿Qué es un autocodificador variacional (VAE)?
¿Qué es un autocodificador variacional (VAE)?
¿Qué es una red generativa adversarial (GAN)?
¿Qué es una red generativa adversarial (GAN)?
¿Qué es un Transformer?
¿Qué es un Transformer?
¿Qué problemas resuelve el aprendizaje profundo de audio?
¿Qué problemas resuelve el aprendizaje profundo de audio?
¿Qué es Wav2Vec 2.0?
¿Qué es Wav2Vec 2.0?
¿Cuál de las siguientes NO es una cuestión que plantean los modelos generativos?
¿Cuál de las siguientes NO es una cuestión que plantean los modelos generativos?
Flashcards
¿Qué hace un Autocodificador Variacional (VAE)?
¿Qué hace un Autocodificador Variacional (VAE)?
Aprende parámetros de probabilidad que representan datos. Muestrea para generar nuevos datos de entrada.
¿Qué es una Red Generativa Antagónica (GAN)?
¿Qué es una Red Generativa Antagónica (GAN)?
Redes con discriminadores y generadores. El generador crea datos y el discriminador distingue entre datos reales y generados.
¿Qué son las Redes Neuronales Gráficas (GNN)?
¿Qué son las Redes Neuronales Gráficas (GNN)?
Funcionan con nodos y aristas que representan entidades y sus relaciones. Capturan patrones locales y globales.
¿Qué es un Transformer?
¿Qué es un Transformer?
Signup and view all the flashcards
¿Qué hace un sistema de voz a texto?
¿Qué hace un sistema de voz a texto?
Signup and view all the flashcards
¿Qué es Wav2Vec 2.0?
¿Qué es Wav2Vec 2.0?
Signup and view all the flashcards
¿Qué hace un sistema de texto a voz (TTS)?
¿Qué hace un sistema de texto a voz (TTS)?
Signup and view all the flashcards
¿Qué es Tacotron2?
¿Qué es Tacotron2?
Signup and view all the flashcards
¿Qué es Whisper?
¿Qué es Whisper?
Signup and view all the flashcards
¿Qué es Trint?
¿Qué es Trint?
Signup and view all the flashcards
¿Qué es el discurso?
¿Qué es el discurso?
Signup and view all the flashcards
¿Qué es la pragmática?
¿Qué es la pragmática?
Signup and view all the flashcards
¿Qué es la semántica?
¿Qué es la semántica?
Signup and view all the flashcards
¿Qué es la sintaxis?
¿Qué es la sintaxis?
Signup and view all the flashcards
¿Qué es la morfología?
¿Qué es la morfología?
Signup and view all the flashcards
¿Qué es la fonética?
¿Qué es la fonética?
Signup and view all the flashcards
¿Qué es la fonología?
¿Qué es la fonología?
Signup and view all the flashcards
¿Qué es tonalidad?
¿Qué es tonalidad?
Signup and view all the flashcards
¿Qué es la banda sonora?
¿Qué es la banda sonora?
Signup and view all the flashcards
¿Qué es un podcast?
¿Qué es un podcast?
Signup and view all the flashcards
¿Qué es un modelo generativo?
¿Qué es un modelo generativo?
Signup and view all the flashcards
¿ Por que un modelo es generativo ?
¿ Por que un modelo es generativo ?
Signup and view all the flashcards
¿Qué implica generar datos para modelos?
¿Qué implica generar datos para modelos?
Signup and view all the flashcards
¿Qué implca el entrenamiento?
¿Qué implca el entrenamiento?
Signup and view all the flashcards
¿Cómo operar en un modelo en mundo abierto?
¿Cómo operar en un modelo en mundo abierto?
Signup and view all the flashcards
¿Qué implica analizar la distribución de datos?
¿Qué implica analizar la distribución de datos?
Signup and view all the flashcards
¿Que implica una tranformación de datos?
¿Que implica una tranformación de datos?
Signup and view all the flashcards
¿Para que corregir diferencias entre originales?
¿Para que corregir diferencias entre originales?
Signup and view all the flashcards
¿Qué es muestreo del modelo?
¿Qué es muestreo del modelo?
Signup and view all the flashcards
¿Cómo evaluar el modelo?
¿Cómo evaluar el modelo?
Signup and view all the flashcards
¿Qué implica el entrenamiento?
¿Qué implica el entrenamiento?
Signup and view all the flashcards
¿Qué implica adaptación?
¿Qué implica adaptación?
Signup and view all the flashcards
¿Como hacer un aprendizaje por transferencia?
¿Como hacer un aprendizaje por transferencia?
Signup and view all the flashcards
¿Qué es el aprendizaje multitarea?
¿Qué es el aprendizaje multitarea?
Signup and view all the flashcards
¿Cúales son elementos de AudioLM?
¿Cúales son elementos de AudioLM?
Signup and view all the flashcards
¿Calidad del audio sintético?
¿Calidad del audio sintético?
Signup and view all the flashcards
¿Qué hay que establecer calidad de sonido?
¿Qué hay que establecer calidad de sonido?
Signup and view all the flashcards
¿Evaluación auditiva centrados en.
¿Evaluación auditiva centrados en.
Signup and view all the flashcards
¿Elementos de evaluacion subjuntiva?
¿Elementos de evaluacion subjuntiva?
Signup and view all the flashcards
¿EValuacion perceptual?
¿EValuacion perceptual?
Signup and view all the flashcards
¿Calidad sónica y sonido?
¿Calidad sónica y sonido?
Signup and view all the flashcards
¿Qué es nota book LN?
¿Qué es nota book LN?
Signup and view all the flashcards
¿Cómo generar un podcast?
¿Cómo generar un podcast?
Signup and view all the flashcards
¿Cines para el análisis visual y auditar?
¿Cines para el análisis visual y auditar?
Signup and view all the flashcards
¿Metodotologías en vídeo juegos?
¿Metodotologías en vídeo juegos?
Signup and view all the flashcards
Study Notes
Tema 3. Inteligencia artificial generativa en audio
- El tema cubre el Procesado Avanzado de Señal Audiovisual.
José Luis Blanco Murillo
- Ingeniero de Telecomunicación (ETSIT-UPM).
- Máster en Tecnologías y Servicios de Comunicaciones (SSR-UPM).
- Doctor por la UPM.
- Experiencia en proyectos de Ingeniería desde 2007.
- Miembro del Grupo de Aplicaciones del Procesado de Señal desde 2008.
- Profesor de la UPM desde 2015.
Presentaciones
- Los temas que se tratan son inteligencia, artificial, generativa, y anotación automática.
Recapitulación del Módulo (Tema 1)
- Contiene Arquitecturas de redes neuronales.
IA aplicada a producción y anotación (Tema 2)
- Incluye Speech-to-Text (S2T), Text-to-Speech (T2S), y Subtitulado.
Ejemplo de registro
- Se puede descargar un registro completo.
Reflexión personal
- Se invita a la reflexión personal sobre las impresiones.
Breve cuestionario
- Hay un breve cuestionario en Moodle.
Cuestionamiento
- Se pregunta qué ha sucedido.
Lo que se echa en falta
- Contexto: Entradilla, música de fondo, cambios de tema y efectos de sonido.
- Ruido/variabilidad: ruido de micrófonos, ruido debido al aire, ruido ambiente, variaciones en voces y cambio de distancia al micrófono.
- Otros elementos: sonido ambiente, diferencias en la fuente sonora y otros locutores.
Ejemplo práctico
- En Moodle está disponible texto completo de partida.
- Se puede generar un Podcast a partir de texto.
- En notebookLM (puede requerir registro en Google) es posible 1) Seleccionar las fuentes, 2) Cargar las fuentes, 3) Utilizar el chat con la opción de resumen de audio y 4) esperar unos minutos.
Experimentación
- Emoción: ¿Qué está pasando?, ¿Se entiende el idioma (inglés)?, ¿Cuántos locutores?, ¿A quiénes debería conocer?, ¿De qué hablan?, ¿Es de interés?, ¿Tiene sentido?
- Calidad: ¿Se entiende bien?, ¿Tienen sentido las palabras?, ¿Son claras las voces?, ¿Son reconocibles?, ¿Se aprecian defectos?
- Utilidad: ¿Es relevante?, ¿Cuál es su utilidad?, ¿Cómo me beneficia?
Elemento generativo
- En el guion: estructura del mensaje (transformación, texto legal de IN y OUT Conversación, selección de conceptos y complementar información).
- En el contenido final: mensaje (conexión de conceptos, selección y conexión de palabras).
- En las voces generadas: sonidos (fonos), duraciones y pausas, y entonación (energía y tono).
- Discurso, Semiótica, Semántica, Sintaxis, Prosodia y Acústica.
Elementos que podrías ser generativo
- Paisaje sonoro: la totalidad de los sonidos que caracterizan un espacio, tonalidad, sonidos de fondo, señales y marcas sonoras.
- Banda sonora: conjunto musical que acompaña una producción audiovisual (música original, música preexistente, efectos de sonido y diálogos).
- Interacciones entre elementos (música-guion, música efectos, efectos-guion).
- Se motiva la sensación de realismo, complemento del mensaje audiovisual para enriquecerlo, Mayor teatralización, Mayor inmersión.
- Interacción multimodal, como doblaje automático.
Niveles de contenido
- Discurso: Uso del lenguaje en un contexto más amplio, cómo se conectan las oraciones para garantizar la coherencia.
- Pragmática: Uso del lenguaje en contexto y cómo se transmite el significado más allá de las interpretaciones literales.
- Semántica: Significado, incluyendo significados de palabras e interpretaciones de oraciones.
- Sintaxis: Cómo se combinan las palabras para formar frases, cláusulas y oraciones.
- Morfología: Estructura y formación de las palabras, centrándose en los morfemas como las unidades más pequeñas de significado.
- Fonología: Patrones sonoros y sus funciones dentro de una lengua.
- Fonética: Sonidos del habla, propiedades físicas y cómo se producen y perciben.
Estructura del discurso
- Se utiliza la pirámide de Freytag para comprender la estructura del discurso.
- Exposición: Presentación de personajes, entorno y situación.
- Acción ascendente: Eventos que intensifican la situación inicial.
- Clímax: Punto álgido de la tensión en la historia.
- Acción descendente: Descripción de las consecuencias y tensión decreciente.
- Desenlace: Resolución de la historia y cierre de tramas.
Características generativas.
- No es completamente aleatorio aunque no existen muestras que sean anteriores.
- Analiza el conocimiento "a priori" permitiendo generar nuevos datos.
Los esquemas generativos empleados
- Creación de contenido (textos, imágenes, música y código). El proceso de creación se acelera y se producen obras basadas en estilos específicos.
- Innovación y diseño al tener diseños, estructuras y visualizaciones que sean novedosas.
- Investigación científica por descubrimientos de nuevas combinaciones y generar datos sintéticos.
- Mejora los procesos incrementando la eficiencia de las tareas.
- Personalización para poder crear contenido específico.
- Aplicaciones empresariales que innoven el manejo de la tecnología.
- Anonimización puede generar una voz que no se parezca a ninguna en especial.
Modelos generativos
- Un modelo diseñado para crear nuevos datos o contenido basado en patrones aprendidos de datos de entrenamiento.
- Capaz de generar instancias similares, pero no idénticas.
- Busca la capacidad de creación, puede producir texto, imagen, etc.
- Analiza y aprende de características y estructuras en los datos.
- Se usa desde arte al diseño.
- Los tipos comunes son Distribución aproximada (GMMs), Transformación entrenada (Autocodificadores Variacionales), y Mejora continua (Redes Generativas Adversarias).
- Este tipo de modelos crea preguntas sobre la autenticidad, derechos de autor, y potencial mal uso.
Modelos generativos vs los no generativos
- La diferencia es evidente cuando el modelo incorpora esquemas de codificador y decodificador.
- En un esquema no generativo, se espera que la salida sea parecida a la entrada.
- En uno generativo, se asegura que las variaciones de entrada produzcan salidas plausibles.
- La representación latente codifica la variación en los datos.
- Parte de la estructura de los datos queda en * el codificador-decodificador.
Capacidades
- Es la capacidad de muestrear un espacio latente, para generar muestras válidas.
- Su entrenamiento es independiente de la estructura del modelo.
- Existen múltiples maneras de entrenamiento, por los cuales se debe tener criterios para que la salida sea similar.
El concepto detrás del generador
- Interpretar su funcionamiento como un "transformador" de datas.
- Una representación latente, tiene su equivalente en el audio.
- Se genera una variante de "representación latente" y se decodifica, en dónde su capacidad radica en recolectar la información.
- Sencillamente, en la nueva representación (variación) se integra ruido.
Usos generativos
- Producción: Se parte de un discurso o texto de índole tanto noticiable y relevante, con estructuras que ayuden a generar interés y mejorar la interacción, generando contenido de forma rápida.
- Locutores: Se intenta evitar a personas o entidades, controlando la calidad de voz con voces complementarias y el control de desarrollo.
- Sonidos: Se generan sonidos asociados a elementos abstractos (aire sólido), tratando de no repetir los sonidos, mejorando la experiencia de usuario.
¿Cómo volverlo generativo?
- Disponer de datas (modelos): El proceso generativo se basa en modelos que a partir de sus datas de entrada tengan la capacidad de producir el resultado esperado.
- Necesidad de aprendizaje: Son entrenados a partir de datas reales.
- Mundo libre: Importante disponer de características"zero-shot", teniendo la capacidad de operar con data nunca vista.
Volverlo generativo con análisis de distribución de datos
- Buscando "imitar" las características, completando espacios vacíos inexistentes pudiendo así, desarrollar uno que genere data.
¿Cómo hacerlo con la formulación de transformación de datas?
- Se "transforma" una muestra aleatoria a una data "real".
- La data original aleatoria es una estructura latente, que se aprende transformaciones
Forma para corregir diferencias
- Se corrige un modelo analizando los datos y reduciendo sesgos y errores en lo ya existente, intentando evitar una discriminación entre lo real y sintético.
- Evaluando el entorno evalúa sus resultados y verifica si funciona o no.
Proceso de entrenamiento
- Recolección de datas: Seleccionarlos en las cualidades deseadas.
- Entrenamiento del modelo: Se entrena bajo el algoritmo seleccionado
- Muestreo: Se crean nuevos datos.
- Evaluación: En base a la data generada se la compara con la original.
- Mejora: Se optimiza el algoritmo y la data generada.
- Implementación: Uso previsto del producto.
Entrenamiento vs Adaptación
- El entrenamiento parte de cero, de forma original o aleatoria.
- La adaptación se realiza en base a modelos preexistentes como punto de referencia, ajustando de acuerdo a data.
- Aprendizaje por transferencia
- Fine-tuning
- Aprendizaje multitarea
- Generación aumentada de recuperación.
¿Cuál es el proceso con los diferentes generadores?
- Mezcla de gaussianas (GMM): Máxima verosimilitud.
- Autocodificador Variacional (VAE): Congelación de capas, Ajuste fino Normalización
- Red Generativa Adversaria (GAN): Duplicados de los modelos, y concentrarse en la mejora del esquema generativo.
Estructuras generativas y discriminativas
- Generativo: Se aproxima a las distribuciones, donde se minimiza la diferencia entre "data generada y lo ya existente" (Máxima verosimilitud)
- Discriminativo: Busca distinguirlo (Clasificación binaria).
Adversarios
- Las muestras sintéticas son la clave para identificar la capacidad de cada una, condicionando a la data existente.
Ejemplo de esquemas generativos
- Texto a audio, con adaptación o sin ella.
Calidad de audio sintético
- Se debe prestar atención a las grabaciones
- Naturalidad y expresividad (tono, entonación, respiración, expresión).
- Intencionalidad y coherencia (claridad, sincronización del habla y expresión).
- Se debe prestar atención a todo lo anterior.
Evaluación Perceptual
- Objetiva: Mide aspectos objetivos de la calidad del sonido.
- Subjetiva: Asegura que las mediciones coincidan con el usuario
- "Medida perceptual": Se mide en base a métodos objetivos (modelado o creación) con síntesis y comparación.
Calidad y referencia
- Se evalúa comparando al contenido original.
Sin referencia
- Se estima su calidad sin el uso del original.
Proceso y datos del podcast
- En primer lugar, cargar las fuentes y datas.
- Analizar contenido con IA: Conectar datas y fuentes para un "conocimiento especializado".
- Selección de datas: Extraer el contenido para su entendimiento mas facil.
NotebookLM
- El sistema genera elementos de texto y audio, facilitando su entendimiento lineal con gran calidad.
En Videojuegos
- Los diseños se adaptan tanto al diseño y emulación.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.