Podcast
Questions and Answers
¿Qué es la luminancia?
¿Qué es la luminancia?
Elige la opción correcta. El histograma puede modificarse para cambiar el aspecto de la imagen,
Elige la opción correcta. El histograma puede modificarse para cambiar el aspecto de la imagen,
Describe la saturación en el modelo HSV.
Describe la saturación en el modelo HSV.
Describe la cantidad de color percibido que se mezcla con blanco.
¿Qué determina la textura de una imagen?
¿Qué determina la textura de una imagen?
Signup and view all the answers
Describe los patrones binarios locales (LBP).
Describe los patrones binarios locales (LBP).
Signup and view all the answers
Qué hace el histograma de gradientes orientados (HoG) en el aprendizaje automático?
Qué hace el histograma de gradientes orientados (HoG) en el aprendizaje automático?
Signup and view all the answers
El algoritmo HoG, se compone de 5 pasos, cuáles son?
El algoritmo HoG, se compone de 5 pasos, cuáles son?
Signup and view all the answers
Qué es el aprendizaje profundo?, las características y el modelo de entrenamiento de aprendizaje profundo funcionan entorno a
Qué es el aprendizaje profundo?, las características y el modelo de entrenamiento de aprendizaje profundo funcionan entorno a
Signup and view all the answers
Para qué sirve la segmentación de imágenes?
Para qué sirve la segmentación de imágenes?
Signup and view all the answers
Qué es la segmentación panóptica?
Qué es la segmentación panóptica?
Signup and view all the answers
La segmentación por bordes es la técnica más simple de segmentación de imágenes.
La segmentación por bordes es la técnica más simple de segmentación de imágenes.
Signup and view all the answers
Qué tipo de técnica de segmentación de imágenes es similar a un mapa topográfico?
Qué tipo de técnica de segmentación de imágenes es similar a un mapa topográfico?
Signup and view all the answers
¿Cómo se puede interpretar el movimiento de un objeto en una escena?
¿Cómo se puede interpretar el movimiento de un objeto en una escena?
Signup and view all the answers
Qué es el flujo óptico.
Qué es el flujo óptico.
Signup and view all the answers
La información espacial indica la cantidad de energía espacial de un fotograma.
La información espacial indica la cantidad de energía espacial de un fotograma.
Signup and view all the answers
¿Qué es el modelo de cámara puntual?
¿Qué es el modelo de cámara puntual?
Signup and view all the answers
¿La calibración de la cámara es un proceso que se realiza en un entorno de laboratorio?
¿La calibración de la cámara es un proceso que se realiza en un entorno de laboratorio?
Signup and view all the answers
Qué es la estereovisión con cámaras paralelas?
Qué es la estereovisión con cámaras paralelas?
Signup and view all the answers
La estereovisión con cámaras paralelas puede obtener información sobre la profundidad de un objeto sin necesidad de conocer la distancia focal ni la distancia de separación entre las dos cámaras.
La estereovisión con cámaras paralelas puede obtener información sobre la profundidad de un objeto sin necesidad de conocer la distancia focal ni la distancia de separación entre las dos cámaras.
Signup and view all the answers
Qué es la visión 3D monocular?
Qué es la visión 3D monocular?
Signup and view all the answers
Cuáles son las hipótesis que se asumen para modelar el comportamiento de la visión 3D monocular?
Cuáles son las hipótesis que se asumen para modelar el comportamiento de la visión 3D monocular?
Signup and view all the answers
La estereopsis es la fusión mental de las dos imágenes en el objeto sensorial.
La estereopsis es la fusión mental de las dos imágenes en el objeto sensorial.
Signup and view all the answers
¿Qué es la realidad aumentada (AR)?
¿Qué es la realidad aumentada (AR)?
Signup and view all the answers
Qué es la realidad virtual (VR)?
Qué es la realidad virtual (VR)?
Signup and view all the answers
¿Cuál de las siguientes opciones NO es una característica de la realidad virtual?
¿Cuál de las siguientes opciones NO es una característica de la realidad virtual?
Signup and view all the answers
¿Qué es SLAM?
¿Qué es SLAM?
Signup and view all the answers
Cuál de las siguientes opciones NO es una tecnología utilizada para la realidad aumentada?
Cuál de las siguientes opciones NO es una tecnología utilizada para la realidad aumentada?
Signup and view all the answers
La realidad aumentada (AR) se basa en la combinación de realidad y objetos virtuales.
La realidad aumentada (AR) se basa en la combinación de realidad y objetos virtuales.
Signup and view all the answers
La realidad virtual (VR) se basa en la creación de un entorno virtual inmersivo. Se pueden crear entornos virtuales de alto realismo, incluso foto-realismo.
La realidad virtual (VR) se basa en la creación de un entorno virtual inmersivo. Se pueden crear entornos virtuales de alto realismo, incluso foto-realismo.
Signup and view all the answers
¿Cuál de las siguientes opciones es una ventaja de la realidad aumentada?
¿Cuál de las siguientes opciones es una ventaja de la realidad aumentada?
Signup and view all the answers
La realidad mixta (MR) es un continuo entre la realidad y la virtualidad. Es una combinación de la realidad aumentada (AR) y la realidad virtual (VR).
La realidad mixta (MR) es un continuo entre la realidad y la virtualidad. Es una combinación de la realidad aumentada (AR) y la realidad virtual (VR).
Signup and view all the answers
¿Qué tipo de enfoques se aplican en la realidad aumentada (AR)?
¿Qué tipo de enfoques se aplican en la realidad aumentada (AR)?
Signup and view all the answers
Study Notes
Procesado de señales audiovisuales
- El tema es el procesado de señales audiovisuales, con fundamentos de procesado de imagen.
- El presentador es Alberto Belmonte Hernández.
- La presentación está financiada por la Unión Europea, NextGenerationEU, el Gobierno de España y el Ministerio de Cultura y Deporte.
- El Plan de Recuperación, Transformación y Resiliencia está involucrado en la financiación.
Temario
- Procesado y extracción de características en imagen y video.
- Inteligencia artificial en el procesado de imagen y video.
- Modelo de cámara, calibración y visión estereoscópica 3D.
- Realidad aumentada, virtual y mixta.
Extracción de características en imagen y video
- Los metadatos para caracterizar imágenes y vídeos se utilizan para automatizar procesos.
- Se utilizan técnicas de procesamiento de imágenes y visión por ordenador para obtener descriptores visuales automáticamente.
- Existen dos grupos principales de descriptores visuales: descriptores de información general (bajo nivel) y descriptores de información de dominio específico.
Clasificación de imágenes
- Una persona puede clasificar una imagen rápidamente, pero un ordenador necesita un análisis diferente.
Clasificación de imágenes (fundamentos y retos)
- Una Imagen de 1000x750 = 750000 píxeles.
- Posibles variaciones en una imagen (Vista, Escalado, Oclusión, Iluminación y Agrupación de fondo).
Extracción de características en imagen y video - Luminosidad
- Se asume una imagen digital monocromática.
- El histograma muestra la frecuencia de cada nivel de gris en una imagen.
- El histograma es un vector discreto cuya longitud es el número de niveles de gris.
- Se puede modificar un histograma para oscurecer o aclarar la imagen.
Extracción de características en imagen y video - Color
- El color humano es percibido mediante bastones y conos.
- La respuesta espectral del conos y bastones humanos es diferente.
- La representación de color de las imágenes se realiza mediante 3 bandas (usualmente RGB).
- Cada banda contiene la información de ese color en cada píxel.
- Se puede representar el color mediante el histograma de color.
Extracción de características en imagen y video - Color (2)
- Existen diferentes espacios de color.
- Se pueden utilizar los espacios de color HSV para el color.
- Se utilizan ecuaciones para convertir RGB a HSV.
- La saturación se calcula a partir de los valores HSV.
Extracción de características en imagen y video - Textura
- La textura se mide en base a propiedades intuitivas como la suavidad y la regularidad.
- Los momentos estadísticos del histograma de gris se pueden utilizar para describir la textura.
- El enésimo momento sobre la media, es una medida de contraste de niveles de gris.
- La matriz de co-ocurrencia de niveles de gris (GLCM) es un método para cuantificar la relación espacial de los píxeles vecinos en una imagen.
- La función de GLCM proporciona medidas de textura como homogeneidad y contraste.
Extracción de características en imagen y video - LBP
- Son un conjunto de valores binarios para los píxeles vecinos.
- Esto permite extraer características de textura locales.
- Se normaliza el histograma.
Extracción de características - Descriptores Espacio-Temporales
- El sistema visual humano percibe el movimiento y la complejidad espacial y temporal de las imágenes de forma diferente
- Los parámetros temporales describen cómo cambia el nivel de brillo o color de las imágenes en una secuencia de video.
- Se analizan las derivadas de la imagen a través del tiempo para extraer los descripciones.
- Hay distintas técnicas (incluyendo las derivadas espacial y temporal, métodos de correlación, y minimización de la energía), para calcular el movimiento.
Extracción de características - HoG
- Se realizan ajustes a los pixeles de la imagen para obtener mejores resultados en la detección de rasgos.
- Se calculan los gradientes en las direcciones x e y para realizar el cálculo del módulo y la fase.
- Se divide la imagen en celdas y bloques para obtener un mejor entendimiento de las regiones.
- Se normaliza el contraste de las celdas para considerar los cambios en la iluminación y el contraste.
Extracción de características - Segmentación
- La segmentación de imágenes consiste en clasificar cada píxel de una imagen en función de una clase semántica o objeto concreto.
- Se utilizan diversas heurísticas como el color o contraste para segmentar adecuadamente la imagen.
- La segmentación moderna utiliza técnicas de aprendizaje automático para mayor precisión, incluida la segmentación semántica, por instancias, y panóptica.
Extracción de características - Movimiento
- Existen múltiples técnicas para estimar el movimiento.
- Se utilizan las derivadas temporales y espaciales de la imagen.
- Se calculan los vectores de movimiento a partir de las diferencias entre los fotogramas y se aplican métodos de correlación.
- El método de optimización se basa en la minimización.
Generación de imágenes - Redes generativas adversarias
- Las Redes Generativas Adversarias (GANs) son un tipo de modelo de aprendizaje profundo para generar imágenes.
- Se combinan un generador, que crea la imagen, y un discriminador. Ambos entrenan de forma adversaria.
- Existen distintas arquitecturas como ProgressiveGAN, DCGAN, EBGAN, CGAN, StackGAN y CycleGAN, cada una con sus beneficios.
Extracción de características mediante Deep Learning en imagen
- La idea para extraer características usando redes profundas en imagen es usar una red preentrenada para extraer características.
- Existen distintos backbones para extraer características como VGG16, VGG19, ResNet50, ResNet101, Inception v3, etc.
Vision 3D Monocular
- Se utilizan ecuaciones para representar la relación entre las coordenadas 3D y su proyección 2D.
- La proyección puede simplificarse mediante coordenadas homogéneas que permiten resolver situaciones donde el plano de la cámara no está en Z=f.
Información 3D a partir de dos proyecciones
- El conocimiento previo de las coordenadas tridimensionales de los puntos o de otros datos permite la determinación de la proyección.
- Las técnicas más avanzadas para determinar la configuración tridimensional de los objetos/escena son la autocalibración y la estereovisión.
Calibración de la cámara
- Es complicado determinar la transformación que permite el alineamiento entre el sistema de referencia del mundo real y el de la cámara.
- Se puede utilizar la calibración de cámara mediante el uso de puntos de referencia 3D bien conocidos y sus proyecciones en la imagen.
Movimientos Puntuales Simples
- Hay tres tipos principales de movimientos simples: traslación, rotación y escalado.
- Cada movimiento se puede describir utilizando matrices de transformación.
Movimientos Puntuales Complejos
- Un movimiento completo puede descomponerse y representarse usando matrices de transformación.
- La multiplicación de matrices no es conmutativa.
- Se deben representar las transformaciones en el orden correcto.
Transformaciones inversas
- Las matrices de transformación en inversa para cada tipo de transformación (traslación, rotación y escalado) se pueden obtener.
Realidad aumentada, virtual y mixta
- Realidad virtual, aumentada y mixta son diferentes tipos de experiencia inmersiva.
- VR reemplaza la realidad con una totalmente sintentica.
- AR magnifica la realidad con contenido virtual.
- MR se sitúa dentro de un continuo y es una mezcla de ambas.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Este cuestionario explora el tema del procesado de señales audiovisuales con un enfoque en procesado de imagen. A través de preguntas sobre técnicas, modelos de cámara y aplicaciones de inteligencia artificial, profundizaremos en cómo se manejan y analizan imágenes y vídeos en diversos contextos tecnológicos.