Tema 5: IA generativa para la creación y edición de imágenes - Presentación PDF

Tema 5: IA generativa para la creación y edición de imágenes Contenidos Resumen de Arquitecturas Generativas de Imagen Stable Diffusion Prompt Engineering para Generación de Imagen Parámetros de Control de Generación Técnicas de Edición Proveedores de Modelos Comparativa de Proveedores Casos Prácticos Líneas Futuras www.ebiseducation.com Resumen de Arquitecturas Generativas de Imagen Resumen de Arquitecturas Generativas de Imagen AutoEncoder (AE) Espacio latente de dimensionalidad reducida. Objetivo: minimizar la distancia entre el original y su reproducción Fuente: LinkedIn Post www.ebiseducation.com Resumen de Arquitecturas Generativas de Imagen Variational AutoEncoder (VAE) Aprenden implícitamente la distribución de los datos. Objetivo: minimizar la distancia entre el original y su reproducción Fuente: Medium Post www.ebiseducation.com Resumen de Arquitecturas Generativas de Imagen Generative Adversarial Network (GAN) Generador aprende a crear imágenes a partir de ruido. Objetivo: generador y discriminador compiten entre ellos. Fuente: Medium Post www.ebiseducation.com Resumen de Arquitecturas Generativas de Imagen Resumen El generador de GAN y el decoder de VAE son procesos generativos. GAN VAE Fuente: Lilian Weng Blog www.ebiseducation.com Stable Diffusion Stable Diffusion ¿Qué es el proceso de difusión? Basado en un concepto de física sobre termodinámica. www.ebiseducation.com Fuente: VectorStock Stable Diffusion ¿Qué es el proceso de difusión? Markov Chain: secuencia de variables en la que el estado de una variable sólo depende del evento anterior. Diffusion Models: agregamos secuencialmente ruido aleatorio a una image. t+ t t+1 t+2 … N www.ebiseducation.com Stable Diffusion ¿Cómo podemos generar imágenes a partir de la difusión? Con Neural Networks (NN) aprendemos a revertir el proceso. Objetivo en cada t: predecir el ruido que debe restarse a la imagen para restaurar la original. NN NN NN t-N … t-2 t-1 t www.ebiseducation.com Stable Diffusion Denoising UNet: NN convolucional que preserva la dimensionalidad de las imágenes a la salida. Input (t - 1) Output t-2 ε - www.ebiseducation.com Stable Diffusion Conditioning ¿Cómo entra en juego el texto? Se inyecta en todo el proceso de 2 maneras: 1. Como entrada al modelo de difusión. 2. A través de mecanismos de cross-attention en la red UNet. Un modelo típicamente usado para generar los embeddings de los prompts textuales es CLIP (Contrastive Language-Image Pre-Training) www.ebiseducation.com Stable Diffusion CLIP (Contrastive Language-Image Pre-Training) Fuente: CLIP paper www.ebiseducation.com Stable Diffusion Conditioning Input (t - 1) Output t-2 ε ATT ATT - ATT Un perro sonriendo CLIP www.ebiseducation.com CLS Stable Diffusion Conditioning Input (t - 1) Output t-2 ε ATT ATT - ATT Un perro sonriendo CLIP www.ebiseducation.com CLS Stable Diffusion Eﬁciencia Imágenes de alta resolución (1024x1024). Gran coste computacional. Normalmente unas ~150 iteraciones de eliminación de ruido. Algunas propuestas para hacer un downsampling previo (a 256x256) y upsampling posterior (OpenAI GLIDE). Latent Diffusion Models (LDM) propone no trabajar sobre el espacio de la imagen, sino en una espacio latente de menor dimensionalidad. www.ebiseducation.com Stable Diffusion Latent Diffusion Model (LDM) Se entrena previamente un AutoEncoder para crear un espacio latente con el que reducir el coste computacional de las iteraciones del proceso de eliminación de ruido. Input Output Decoder Encoder www.ebiseducation.com Stable Diffusion Latent Diffusion Model (LDM) Input Output Additive Noise ATT ATT Decoder Encoder Latent ATT Un perro sonriendo CLIP Noisy Denoised Compressed Compressed Latent Latent www.ebiseducation.com CLS Stable Diffusion Latent Diffusion Model (LDM) www.ebiseducation.com Fuente: Machinelearningmastery Stable Diffusion Latent Diffusion Model (LDM) Reduce enormemente el coste computacional (modelos que se pueden ejecutar en hardware comercial). En AutoEncoder se encarga de la resolución de la imagen. El modelo de difusión se centra en la semántica de la imagen. www.ebiseducation.com Stable Diffusion ¿Por qué Diffusion frente a otros? DALLE-1: ○ Excelente diversidad. ○ Deﬁciente fotorealismo. Modelo tipo GPT. Fuente: OpenAI DALL-E 1 www.ebiseducation.com Stable Diffusion ¿Por qué Diffusion frente a otros? GAN: ○ Alta ﬁdelidad y realismo Fuente: A Style-Based Generator Architecture for Generative Adversarial Networks www.ebiseducation.com Stable Diffusion ¿Por qué Diffusion frente a otros? Diffusion Models: ○ Más ﬁeles a las imágenes de entrenamiento. ○ Proceso iterativo y guiado (GAN genera en 1 solo paso). ○ Iteraciones como puntos de control, donde se elimina ruido y se agregan detalles. Fuente: Reddit www.ebiseducation.com Stable Diffusion ¿Por qué Diffusion frente a otros? www.ebiseducation.com Fuente: Latent Diffusion Model paper Prompt Engineering para Generación de Imagen Prompt Engineering para Generación de Imagen Guía para elaborar prompts ¿Quiero generar una foto o una pintura? → Medio/Técnica ¿Cuál es el sujeto de la imagen? → Persona/Animal/Objeto ¿Qué detalles afectan al sujeto? → Acción/Complemento ¿Dónde se encuentra? → Fondo ¿Cómo se ve al sujeto? → Composición ¿Quiero que se inspire en algún artista? → Estilo www.ebiseducation.com Prompt Engineering para Generación de Imagen Guía para elaborar prompts Fuente: OpenArt prompt book www.ebiseducation.com Prompt Engineering para Generación de Imagen Guía para elaborar prompts Fuente: OpenArt prompt book www.ebiseducation.com Prompt Engineering para Generación de Imagen Guía para elaborar prompts Prompt: Una fotografía de la joven de la perla sonriendo, vestida con una camiseta de un grupo de rock y con un piercing en la nariz, en el fondo un bowl de skate, al atardecer, luz natural, 100mm, wide aspect ratio www.ebiseducation.com Prompt Engineering para Generación de Imagen Guía para elaborar prompts Prompt: Pintura de la joven de la perla sonriendo, vestida con una camiseta de un grupo de rock y con un piercing en la nariz, en el fondo un bowl de skate, al atardecer, luz natural, estilo Van Gogh, wide aspect ratio www.ebiseducation.com Prompt Engineering para Generación de Imagen Guía para elaborar prompts Fuente: OpenArt prompt book www.ebiseducation.com Prompt Engineering para Generación de Imagen Técnica de Fotografía Fuente: OpenArt prompt book www.ebiseducation.com Prompt Engineering para Generación de Imagen Tipo de Cámara Fuente: OpenArt prompt book www.ebiseducation.com Prompt Engineering para Generación de Imagen Tipo de Lente Fuente: OpenArt prompt book www.ebiseducation.com Prompt Engineering para Generación de Imagen Triángulo de Exposición www.ebiseducation.com Fuente: Triángulo de Exposición Prompt Engineering para Generación de Imagen Técnicas Artísticas Fuente: OpenArt prompt book www.ebiseducation.com Prompt Engineering para Generación de Imagen Estilos Artísticos Van Gogh Alfons Mucha www.ebiseducation.com Prompt Engineering para Generación de Imagen Mezclar Estilos Artísticos Prompt: Retrato de una mujer concentrada escuchando música de un gramófono en un parque con un lago de fondo, mañana soleada, estilo Alfons Mucha y Van Gogh, wide aspect ratio www.ebiseducation.com Parámetros de Control de Generación Parámetros de Control de Generación Steps Son las iteraciones del modelo de difusión eliminar el ruido. La iteración termina cuando llega al número establecido de pasos. En general, cuanto mayor, mejor… pero depende del resultado que se quiera obtener! Fuente: getimg.ai www.ebiseducation.com Parámetros de Control de Generación Guidance Scale Controla el grado al que el modelo se ciñe a tus prompts. Cuanto mayor, más ﬁel será a la instrucción que le has proporcionado. Cuanto menor, más diversidad tendrá el modelo para crear. Los extremos suelen acabar generando artefactos. Fuente: getimg.ai Parámetros de Control de Generación Negative Prompt Son instrucciones para decir que NO quieres que se muestre en la imagen. www.ebiseducation.com Fuente: getimg.ai Parámetros de Control de Generación Seed Es la semilla de aleatoriedad con la que se inicializa la generación. Puede ayudar a generar imágenes reproducibles ﬁjándolo y cambiando sólo otros parámetros ligeramente, como el prompt. Fuente: getimg.ai www.ebiseducation.com Parámetros de Control de Generación Prompt Weights Para enfatizar o de-enfatizar partes del prompt. Se puede añadir junto a los conceptos a enfatizar un “+[1.1, 2]”. O para des-enfatizar “-[0, 0.9]”. También válidos para el Negative Prompt. Fuente: getimg.ai www.ebiseducation.com Parámetros de Control de Generación Samplers Hace referencia a la técnica utilizada en el proceso iterativo de eliminación de ruido. Algunas técnicas pueden requerir más pasos que otras para producir la misma calidad. Fuente: getimg.ai www.ebiseducation.com Parámetros de Control de Generación Strength Es un parámetro para Img2Img. Como por ejemplo el Inpainting o la transferencia de estilo de una imagen a otra. Valores cercanos a 0 producirán imágenes casi idénticas a la original. Valores cercanos a 1 producirán imágenes muy diferentes a la original. Fuente: getimg.ai www.ebiseducation.com Técnicas de Edición Técnicas de Edición Outpainting Extender la imagen original más allá del encuadre. Fuente: Replicate www.ebiseducation.com Técnicas de Edición Inpainting Edita partes concretas de la imagen original. www.ebiseducation.com Fuente: getimg.ai Técnicas de Edición Upscaling Aumentar la resolución de la imagen original. Fuente: getimg.ai www.ebiseducation.com Técnicas de Edición Background Removal www.ebiseducation.com Fuente: Clipdrop Técnicas de Edición Background Replacement Fuente: Clipdrop www.ebiseducation.com Técnicas de Edición Text Remover www.ebiseducation.com Fuente: Clipdrop Técnicas de Edición Relight www.ebiseducation.com Fuente: Clipdrop Técnicas de Edición Swap Fuente: Clipdrop www.ebiseducation.com Técnicas de Edición Reimagine Fuente: Clipdrop Proveedores de Modelos Proveedores de Modelos DALL-E 3 Accesible a través de API y con suscripción Plus/Enterprise. API facturación bajo demanda. Plus 20$/mes (uso limitado cada 3h). Modelo propietario. No se puede entrenar. www.ebiseducation.com Proveedores de Modelos Midjourney Accesible por Discord (versión web en desarrollo) y API. Modelo propietario. No se puede entrenar. Fuente: Midjourney www.ebiseducation.com Proveedores de Modelos Clipdrop Especializado para la edición de imágenes. Versión web y API. Versión gratis bastante accesible pero con limitaciones (watermarks, menos generaciones y menos herramientas). Versión Pro 11€/mes. API facturación bajo demanda. www.ebiseducation.com Proveedores de Modelos Runway Tanto para edición como para generación. Posibilidad de entrenar modelos. Versión web y API. API facturación bajo demanda. Web facturación en base a créditos. Fuente: Runway www.ebiseducation.com Proveedores de Modelos Getimg.ai Versión web y API. Tanto para generación como edición. Facturación en base a créditos. Plan de prueba hasta 100 imágenes. Distintos planes desde 11, 26, 49€/mes. www.ebiseducation.com Comparativa de Proveedores Comparativa de Proveedores Generación de Imágenes Plataforma OpenAI Midjourney Getimg.ai Modelo DALL-E 3 v6 (latest version) Stable Diffusion Web Sí Discord (web en v. alpha) Sí Facilidad de uso (entorno) Fácil Intermedio Avanzado Facilidad de uso (prompt) Fácil Intermedio Intermedio Img2Img Sí Sí Sí Inpainting Sí Sí Sí Outpainting No Sí Sí Calidad de imagen Buena Excelente Buena www.ebiseducation.com Comparativa de Proveedores Edición de Imágenes Plataforma Clipdrop Runway Modelo Stable Diffusion Stable Diffusion Web Sí Sí Facilidad de uso (entorno) Sí Sí Text2Img Sí Sí Img2Img No Sí Inpainting Sí (generative fill, clean up) Sí (erase & replace) Outpainting Sí (uncrop) Sí (extend image) Background Remove Sí No Background Replace Sí Sí (backdrop remix) Upscaler Sí Sí Otras Herramientas Relight, Text Remover Add Color, Frame Interpolation, 3D texture, Model Training Casos Prácticos Casos Prácticos DALLE, Midjourney, Clipdrop, Runway Explorar plataforma, Set-Up inicial y formas de uso. Técnicas de prompting. www.ebiseducation.com Casos Prácticos Casos de Uso Reemplazar imágenes de Stock Creación de Logos Portadas o Ilustraciones para libros, discos, tarjetas, … Diseño de sitio web y producto Pósters y materiales para marketing www.ebiseducation.com Líneas Futuras Líneas Futuras Consideraciones éticas y legales Impacto social: contenido tóxico/fake, derechos de autor ○ Guardrails ○ Watermarking www.ebiseducation.com USA www.ebiseducation.com

Tema 5: IA generativa para la creación y edición de imágenes - Presentación PDF

Document Details

Tags

Related

Summary

Full Transcript