Podcast
Questions and Answers
¿Qué es un autocodificador variacional (VAE)?
¿Qué es un autocodificador variacional (VAE)?
Es un modelo que aprende los parámetros de una distribución de probabilidad que representa los datos, obteniendo una visión más detallada y matizada de los mismos, tomando muestras de la distribución y generando nuevas muestras de datos de entrada.
¿Qué es una red generativa adversarial (GAN)?
¿Qué es una red generativa adversarial (GAN)?
Es un tipo especializado de red diseñada específicamente para generar información, compuesta por un discriminador y un generador. El discriminador distingue datos reales de los generados, mientras que el generador crea datos convincentes.
¿Qué son las redes neuronales gráficas (GNN)?
¿Qué son las redes neuronales gráficas (GNN)?
Son una clase de redes neuronales diseñadas para operar sobre estructuras de datos gráficas, donde los nodos y las aristas representan entidades y sus relaciones.
¿Qué es un Transformer?
¿Qué es un Transformer?
¿Qué problemas resuelve el aprendizaje profundo de audio?
¿Qué problemas resuelve el aprendizaje profundo de audio?
¿Qué es Wav2Vec 2.0?
¿Qué es Wav2Vec 2.0?
¿Qué es Tacotron2?
¿Qué es Tacotron2?
¿Qué es Whisper en el contexto de IA aplicada a los contenidos?
¿Qué es Whisper en el contexto de IA aplicada a los contenidos?
¿Qué es Trint en el contexto de IA aplicada a los contenidos?
¿Qué es Trint en el contexto de IA aplicada a los contenidos?
¿Cómo funciona la función Audio a Texto en herramientas de IA para contenidos informativos?
¿Cómo funciona la función Audio a Texto en herramientas de IA para contenidos informativos?
¿Qué es Texto a Speech (TTS) en el contexto de IA aplicada a los contenidos?
¿Qué es Texto a Speech (TTS) en el contexto de IA aplicada a los contenidos?
¿Qué implicaciones tiene la IA en los Subtitulados Automáticos?
¿Qué implicaciones tiene la IA en los Subtitulados Automáticos?
¿Qué herramienta de IA utiliza Warner Bross para la Producción de Contenidos?
¿Qué herramienta de IA utiliza Warner Bross para la Producción de Contenidos?
¿Qué es un modelo generativo?
¿Qué es un modelo generativo?
Menciona Tipos comunes de modelos generativos
Menciona Tipos comunes de modelos generativos
¿Qué aprende un autocodificador variacional (VAE)?
¿Qué aprende un autocodificador variacional (VAE)?
¿Cuáles son las dos redes que componen una red generativa adversarial (GAN)?
¿Cuáles son las dos redes que componen una red generativa adversarial (GAN)?
¿Qué permite el mecanismo de atención en un Transformer?
¿Qué permite el mecanismo de atención en un Transformer?
¿Qué resuelve el aprendizaje profundo de audio?
¿Qué resuelve el aprendizaje profundo de audio?
¿Qué hace Wav2Vec 2.0?
¿Qué hace Wav2Vec 2.0?
¿Qué hace Texto a voz (TTS)?
¿Qué hace Texto a voz (TTS)?
¿Qué implica el entrenamiento 'desde cero' o 'from scratch'?
¿Qué implica el entrenamiento 'desde cero' o 'from scratch'?
¿Qué se busca al partir de un modelo válido en la adaptación?
¿Qué se busca al partir de un modelo válido en la adaptación?
En muchos contextos es preferible que la voz generada pertenezca a algún sujeto en particular.
En muchos contextos es preferible que la voz generada pertenezca a algún sujeto en particular.
¿Cuáles son Tipos comunes de modelos generativos?
¿Cuáles son Tipos comunes de modelos generativos?
¿Cómo se interpreta el funcionamiento del generador?
¿Cómo se interpreta el funcionamiento del generador?
¿Qué función cumplen los métodos para corregir diferencias en los modelos generativos?
¿Qué función cumplen los métodos para corregir diferencias en los modelos generativos?
¿Qué permite el sonido en el diseño / invención en los videojuegos?
¿Qué permite el sonido en el diseño / invención en los videojuegos?
¿Qué se evalúa en la Naturalidad y expresividad en la calidad del audio sintético?
¿Qué se evalúa en la Naturalidad y expresividad en la calidad del audio sintético?
¿Qué se centra en la Inteligibilidad y coherencia en la calidad del audio sintético?
¿Qué se centra en la Inteligibilidad y coherencia en la calidad del audio sintético?
¿Qué evalúan en los Comodidad auditiva y naturalidad en Evaluación Subjetiva del audio?
¿Qué evalúan en los Comodidad auditiva y naturalidad en Evaluación Subjetiva del audio?
¿Qué evalúan el Análisis mediante síntesis la Evaluación Objetiva Perceptual del audio?
¿Qué evalúan el Análisis mediante síntesis la Evaluación Objetiva Perceptual del audio?
Flashcards
¿Qué es una red GAN?
¿Qué es una red GAN?
Un tipo de red diseñada para crear información compuesta por un discriminador y un generador.
¿Qué estructuras usan las GNN?
¿Qué estructuras usan las GNN?
En las GNN, los nodos y las aristas representan entidades y sus relaciones en estructuras de datos gráficas.
¿Qué hace la tecnología TTS?
¿Qué hace la tecnología TTS?
TTS toma texto como entrada y lo convierte en audio, útil para leer textos en voz alta.
¿Qué convierte Whisper?
¿Qué convierte Whisper?
Signup and view all the flashcards
Entrenamiento
Entrenamiento
Signup and view all the flashcards
Adaptación en IA
Adaptación en IA
Signup and view all the flashcards
¿Qué comprueba un discriminador?
¿Qué comprueba un discriminador?
Signup and view all the flashcards
¿Qué es evaluación 'sin referencia'?
¿Qué es evaluación 'sin referencia'?
Signup and view all the flashcards
¿Dónde esta lo generativo?
¿Dónde esta lo generativo?
Signup and view all the flashcards
¿Qué es la música original?
¿Qué es la música original?
Signup and view all the flashcards
¿Que Implica de voz a texto y de texto a voz?
¿Que Implica de voz a texto y de texto a voz?
Signup and view all the flashcards
Study Notes
Inteligencia Artificial Generativa en Audio
- El tema se centra en la inteligencia, la IA y la generación automática en el contexto del audio.
José Luis Blanco Murillo
- Ingeniero de Telecomunicación (ETSIT-UPM).
- Máster en Tecnologías y Servicios de Comunicaciones (SSR-UPM).
- Doctor por la UPM.
- Tiene experiencia en proyectos de Ingeniería desde 2007.
- Es miembro del Grupo de Aplicaciones del Procesado de Señal desde 2008.
- Profesor UPM desde 2015.
Recapitulación del Módulo (Tema 1)
- Sirve como introducción al módulo.
IA aplicada a producción y anotación (Tema 2)
- S2T: Speech-to-Text
- T2S: Text-to-Speech
- Subtitulado
Reflexión Personal
- El usuario es invitado a compartir sus impresiones y reflexiones personales sobre el tema.
Cuestionario en Moodle
- Breve cuestionario en Moodle
Elementos a considerar al analizar
- Entradilla.
- Música de fondo.
- Cambios de tema.
- Efectos de sonido.
- Ruido de los micrófonos.
- Ruido debido al aire.
- Ruido ambiente.
- Variaciones en las voces.
- Cambio de distancia al micrófono.
- Sonido ambiente.
- Diferencias en la fuente sonora.
- Otros locutores.
Generacion de Podcast a Partir de Texto
- El usuario puede generar un podcast a partir de un texto
- BOE. Texto consolidado de 2025.
- https://www.boe.es/biblioteca_juridica/codigos/codigo.php?id=158&modo=2¬a=1&tab=2
- Texto completo disponible en Moodle.
- Selecciona las fuentes del texto
- Visita notebookLM (requiere registro en google): https://notebooklm.google.com/
- Carga las fuentes
- Selecciona la opción de resumen de audio en el chat.
- Espera unos minutos hasta que se genere el podcast.
Experiencia del usuario (podcast)
- Emoción: ¿Qué está pasando?, ¿Se entiende?, ¿Dos locutores?, ¿De qué están hablando?, ¿Me interesa?, ¿A qué viene esto?
- Calidad: ¿Se entiende?, ¿Tiene sentido lingüístico?, ¿Claridad vocal?, ¿Reconocible?, ¿Se aprecian defectos?
- Utilidad: ¿Cuál es el origen?, ¿Cuál es su función?, ¿Cuál es su relevancia?
Elementos generativos del mensaje
- Guion: estructura del mensaje, transformación, selección de conceptos, información adicional y discurso.
- Contenido: conexión de conceptos y palabras.
- Voces: fonos, duración (pausas), entonación (ritmo), energía y pitch.
Elementos Adicionales Generativos
- Paisaje sonoro: totalidad de sonidos
- Tonalidad, sonidos de fondo, señales y marcas sonoras.
- Banda sonora: acompañamiento musical
- Música original y preexistente, efectos de sonido, diálogos.
- Interacciones entre elementos: música-guion, música-efectos, efectos-guion.
- Objetivos: crear atmósfera, guiar la emoción, proporcionar continuidad e identificar personajes y espacios.
- Motivación: realismo, complemento audiovisual, teatralización e inmersión.
- Interacción multimodal: integración de lo visual y lo auditivo.
Niveles de Contenido
- Discurso: une las oraciones para la coherencia.
- Pragmática: transmite el significado más allá de lo literal.
- Semántica: los significados de palabras y frases.
- Sintaxis: la estructura de frases y oraciones.
- Morfología: estructura de las palabras.
- Fonología: patrones de sonido.
- Fonética: propiedades físicas del habla.
- La generación se produce en todos los niveles.
Estructura del Discurso
- Exposición: Presenta personajes, escenario, situación inicial.
- Acción ascendente: Eventos que complican tensión inicial.
- Clímax: Punto álgido
- Acción descendente: Consecuencias del clímax.
- Desenlace: Resolución de la historia.
- El podcast tiene una estructura fija, pero con generación de variantes.
Razones para la Generación
- Se generan datos con misma distribución.
- Los esquemas generativos facilitan la creación y aceleran el contenido textual, visual y auditivo.
- Facilita la innovación y el diseño
- Apoyo a la investigación científica
- Mejora en los procesos de anonimización
- Hay una mayor personalización
- Hay un mayor apoyo a la documentación
Modelos Generativos
- Artificialmente diseñado para crear contenido nuevo a partir de datos existentes.
- Objetivo: crear nuevos datos (textos, imágenes, música, código).
- Metodología: aprendizaje de patrones y estructuras subyacentes.
- Uso: arte, diseño, investigación.
- Tipos: GMMs, Autocodificadores Variacionales, Redes Generativas Adversarias.
Modelos Generativos vs No Generativos
- Los modelos generativos se hacen evidentes cuando el modelo incorpora esquemas de codificación y decodificación.
- Los modelos No Generativos esperan que la entrada sea igual a la salida
- Los modelos generativos aseguran que en la representación intermedia las variaciones intergeneran salidas plausibles.
El Concepto Detrás del Generador
- Se comporta como transformador de datos
- Dada la representación latente de un dato, hay un equivalente acústico
- Si se genera una variación realista, se genera una variante latente y de ahí se decodifica para un nuevo dato sintético
- Si recoge características de un dato real, se comporta como generativo
Propósitos de la Generación
- Contextos de usos: Producción, locutores y sonidos
- Desde escribir hasta el doblaje automático.
- Sonidos imposibles, efectos de sonido, paisajes sonoros.
- Se evita locutores humanos o se controlan sus voces.
Cómo Hacerlo Generativo
- Los modelos se entrena a partir de datos reales, para promover las capacidades generativas
- Los modelos deben adaptarse a características zero-shot
- El Zero-shot hace que los modelos dispongan de datos no vistos
- Es importante que los modelos dispongan de características zero-shot, que sean capaces de operar con datos nunca vistos.
En el Generativo, también se debe
- Analizar la distribución
- Formular una transformación
- Aplicar una corrección
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.