Procesado de Señales Audiovisuales
32 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué es la luminancia?

  • Es la cantidad de luz que llega al ojo del observador.
  • Es el brillo percibido de un objeto. (correct)
  • Es la cantidad de información contenida en una imagen.
  • Elige la opción correcta. El histograma puede modificarse para cambiar el aspecto de la imagen,

  • Haciéndola más difusa o más detallada.
  • Haciéndola más monocromática o más colorida.
  • Haciéndola más oscura o más clara. (correct)
  • Describe la saturación en el modelo HSV.

    Describe la cantidad de color percibido que se mezcla con blanco.

    ¿Qué determina la textura de una imagen?

    <p>La suavidad, la tosquedad o la regularidad</p> Signup and view all the answers

    Describe los patrones binarios locales (LBP).

    <p>Es un método para cuantificar la relación espacial de los píxeles vecinos en una imagen. Compara cada píxel con los valores de los píxeles que lo rodean.</p> Signup and view all the answers

    Qué hace el histograma de gradientes orientados (HoG) en el aprendizaje automático?

    <p>Detecta formas particulares e identifica objetos predeterminados.</p> Signup and view all the answers

    El algoritmo HoG, se compone de 5 pasos, cuáles son?

    <p>Reajusta los valores de los píxeles, calcula el gradiente en las direcciones x e y, calcula los votos ponderados, normaliza, crea el vector de características.</p> Signup and view all the answers

    Qué es el aprendizaje profundo?, las características y el modelo de entrenamiento de aprendizaje profundo funcionan entorno a

    <p>La extracción de características</p> Signup and view all the answers

    Para qué sirve la segmentación de imágenes?

    <p>Para identificar objetos en una imagen.</p> Signup and view all the answers

    Qué es la segmentación panóptica?

    <p>Un tipo de segmentación que combina la segmentación semántica y la segmentación por instancias.</p> Signup and view all the answers

    La segmentación por bordes es la técnica más simple de segmentación de imágenes.

    <p>False</p> Signup and view all the answers

    Qué tipo de técnica de segmentación de imágenes es similar a un mapa topográfico?

    <p>Segmentación de cuencas hidrográficas</p> Signup and view all the answers

    ¿Cómo se puede interpretar el movimiento de un objeto en una escena?

    <p>Ambas opciones</p> Signup and view all the answers

    Qué es el flujo óptico.

    <p>Es una estimación del movimiento de los objetos en una escena, basándose en los cambios de intensidad de los niveles de gris entre imágenes consecutivas.</p> Signup and view all the answers

    La información espacial indica la cantidad de energía espacial de un fotograma.

    <p>True</p> Signup and view all the answers

    ¿Qué es el modelo de cámara puntual?

    <p>Es un modelo simple que describe la formación de imágenes con un sistema de lentes, equivalente a un agujero en un plano opaco de tamaño infinitamente pequeño.</p> Signup and view all the answers

    ¿La calibración de la cámara es un proceso que se realiza en un entorno de laboratorio?

    <p>False</p> Signup and view all the answers

    Qué es la estereovisión con cámaras paralelas?

    <p>Es una técnica que utiliza dos cámaras para recuperar la información tridimensional de un punto en el espacio, mediante el análisis de la proyección del punto sobre ambos planos de imagen.</p> Signup and view all the answers

    La estereovisión con cámaras paralelas puede obtener información sobre la profundidad de un objeto sin necesidad de conocer la distancia focal ni la distancia de separación entre las dos cámaras.

    <p>False</p> Signup and view all the answers

    Qué es la visión 3D monocular?

    <p>La visión 3D monocular es un conjunto de técnicas que buscan recuperar información sobre la profundidad de un objeto en una escena a partir de una sola imagen.</p> Signup and view all the answers

    Cuáles son las hipótesis que se asumen para modelar el comportamiento de la visión 3D monocular?

    <p>Se considera que los objetos visualizados por la cámara son rígidos, y que la cámara realiza un movimiento de traslación en el espacio.</p> Signup and view all the answers

    La estereopsis es la fusión mental de las dos imágenes en el objeto sensorial.

    <p>True</p> Signup and view all the answers

    ¿Qué es la realidad aumentada (AR)?

    <p>Es un entorno físico en el que se integran objetos digitales con objetos físicos.</p> Signup and view all the answers

    Qué es la realidad virtual (VR)?

    <p>Un entorno digital creado por ordenador que se visualiza a través de un dispositivo de seguimiento en la cabeza.</p> Signup and view all the answers

    ¿Cuál de las siguientes opciones NO es una característica de la realidad virtual?

    <p>Visualización en 3D, con perspectiva y movimiento sin restricciones.</p> Signup and view all the answers

    ¿Qué es SLAM?

    <p>Un algoritmo que utiliza un dispositivo de seguimiento de movimiento para estimar la posición de la cámara y la estructura del entorno.</p> Signup and view all the answers

    Cuál de las siguientes opciones NO es una tecnología utilizada para la realidad aumentada?

    <p>Reconocimiento facial.</p> Signup and view all the answers

    La realidad aumentada (AR) se basa en la combinación de realidad y objetos virtuales.

    <p>True</p> Signup and view all the answers

    La realidad virtual (VR) se basa en la creación de un entorno virtual inmersivo. Se pueden crear entornos virtuales de alto realismo, incluso foto-realismo.

    <p>True</p> Signup and view all the answers

    ¿Cuál de las siguientes opciones es una ventaja de la realidad aumentada?

    <p>Permite mezclar realidad y contenido virtual.</p> Signup and view all the answers

    La realidad mixta (MR) es un continuo entre la realidad y la virtualidad. Es una combinación de la realidad aumentada (AR) y la realidad virtual (VR).

    <p>True</p> Signup and view all the answers

    ¿Qué tipo de enfoques se aplican en la realidad aumentada (AR)?

    <p>AR basada en marcadores y AR sin marcadores.</p> Signup and view all the answers

    Study Notes

    Procesado de señales audiovisuales

    • El tema es el procesado de señales audiovisuales, con fundamentos de procesado de imagen.
    • El presentador es Alberto Belmonte Hernández.
    • La presentación está financiada por la Unión Europea, NextGenerationEU, el Gobierno de España y el Ministerio de Cultura y Deporte.
    • El Plan de Recuperación, Transformación y Resiliencia está involucrado en la financiación.

    Temario

    • Procesado y extracción de características en imagen y video.
    • Inteligencia artificial en el procesado de imagen y video.
    • Modelo de cámara, calibración y visión estereoscópica 3D.
    • Realidad aumentada, virtual y mixta.

    Extracción de características en imagen y video

    • Los metadatos para caracterizar imágenes y vídeos se utilizan para automatizar procesos.
    • Se utilizan técnicas de procesamiento de imágenes y visión por ordenador para obtener descriptores visuales automáticamente.
    • Existen dos grupos principales de descriptores visuales: descriptores de información general (bajo nivel) y descriptores de información de dominio específico.

    Clasificación de imágenes

    • Una persona puede clasificar una imagen rápidamente, pero un ordenador necesita un análisis diferente.

    Clasificación de imágenes (fundamentos y retos)

    • Una Imagen de 1000x750 = 750000 píxeles.
    • Posibles variaciones en una imagen (Vista, Escalado, Oclusión, Iluminación y Agrupación de fondo).

    Extracción de características en imagen y video - Luminosidad

    • Se asume una imagen digital monocromática.
    • El histograma muestra la frecuencia de cada nivel de gris en una imagen.
    • El histograma es un vector discreto cuya longitud es el número de niveles de gris.
    • Se puede modificar un histograma para oscurecer o aclarar la imagen.

    Extracción de características en imagen y video - Color

    • El color humano es percibido mediante bastones y conos.
    • La respuesta espectral del conos y bastones humanos es diferente.
    • La representación de color de las imágenes se realiza mediante 3 bandas (usualmente RGB).
    • Cada banda contiene la información de ese color en cada píxel.
    • Se puede representar el color mediante el histograma de color.

    Extracción de características en imagen y video - Color (2)

    • Existen diferentes espacios de color.
    • Se pueden utilizar los espacios de color HSV para el color.
    • Se utilizan ecuaciones para convertir RGB a HSV.
    • La saturación se calcula a partir de los valores HSV.

    Extracción de características en imagen y video - Textura

    • La textura se mide en base a propiedades intuitivas como la suavidad y la regularidad.
    • Los momentos estadísticos del histograma de gris se pueden utilizar para describir la textura.
    • El enésimo momento sobre la media, es una medida de contraste de niveles de gris.
    • La matriz de co-ocurrencia de niveles de gris (GLCM) es un método para cuantificar la relación espacial de los píxeles vecinos en una imagen.
    • La función de GLCM proporciona medidas de textura como homogeneidad y contraste.

    Extracción de características en imagen y video - LBP

    • Son un conjunto de valores binarios para los píxeles vecinos.
    • Esto permite extraer características de textura locales.
    • Se normaliza el histograma.

    Extracción de características - Descriptores Espacio-Temporales

    • El sistema visual humano percibe el movimiento y la complejidad espacial y temporal de las imágenes de forma diferente
    • Los parámetros temporales describen cómo cambia el nivel de brillo o color de las imágenes en una secuencia de video.
    • Se analizan las derivadas de la imagen a través del tiempo para extraer los descripciones.
    • Hay distintas técnicas (incluyendo las derivadas espacial y temporal, métodos de correlación, y minimización de la energía), para calcular el movimiento.

    Extracción de características - HoG

    • Se realizan ajustes a los pixeles de la imagen para obtener mejores resultados en la detección de rasgos.
    • Se calculan los gradientes en las direcciones x e y para realizar el cálculo del módulo y la fase.
    • Se divide la imagen en celdas y bloques para obtener un mejor entendimiento de las regiones.
    • Se normaliza el contraste de las celdas para considerar los cambios en la iluminación y el contraste.

    Extracción de características - Segmentación

    • La segmentación de imágenes consiste en clasificar cada píxel de una imagen en función de una clase semántica o objeto concreto.
    • Se utilizan diversas heurísticas como el color o contraste para segmentar adecuadamente la imagen.
    • La segmentación moderna utiliza técnicas de aprendizaje automático para mayor precisión, incluida la segmentación semántica, por instancias, y panóptica.

    Extracción de características - Movimiento

    • Existen múltiples técnicas para estimar el movimiento.
    • Se utilizan las derivadas temporales y espaciales de la imagen.
    • Se calculan los vectores de movimiento a partir de las diferencias entre los fotogramas y se aplican métodos de correlación.
    • El método de optimización se basa en la minimización.

    Generación de imágenes - Redes generativas adversarias

    • Las Redes Generativas Adversarias (GANs) son un tipo de modelo de aprendizaje profundo para generar imágenes.
    • Se combinan un generador, que crea la imagen, y un discriminador. Ambos entrenan de forma adversaria.
    • Existen distintas arquitecturas como ProgressiveGAN, DCGAN, EBGAN, CGAN, StackGAN y CycleGAN, cada una con sus beneficios.

    Extracción de características mediante Deep Learning en imagen

    • La idea para extraer características usando redes profundas en imagen es usar una red preentrenada para extraer características.
    • Existen distintos backbones para extraer características como VGG16, VGG19, ResNet50, ResNet101, Inception v3, etc.

    Vision 3D Monocular

    • Se utilizan ecuaciones para representar la relación entre las coordenadas 3D y su proyección 2D.
    • La proyección puede simplificarse mediante coordenadas homogéneas que permiten resolver situaciones donde el plano de la cámara no está en Z=f.

    Información 3D a partir de dos proyecciones

    • El conocimiento previo de las coordenadas tridimensionales de los puntos o de otros datos permite la determinación de la proyección.
    • Las técnicas más avanzadas para determinar la configuración tridimensional de los objetos/escena son la autocalibración y la estereovisión.

    Calibración de la cámara

    • Es complicado determinar la transformación que permite el alineamiento entre el sistema de referencia del mundo real y el de la cámara.
    • Se puede utilizar la calibración de cámara mediante el uso de puntos de referencia 3D bien conocidos y sus proyecciones en la imagen.

    Movimientos Puntuales Simples

    • Hay tres tipos principales de movimientos simples: traslación, rotación y escalado.
    • Cada movimiento se puede describir utilizando matrices de transformación.

    Movimientos Puntuales Complejos

    • Un movimiento completo puede descomponerse y representarse usando matrices de transformación.
    • La multiplicación de matrices no es conmutativa.
    • Se deben representar las transformaciones en el orden correcto.

    Transformaciones inversas

    • Las matrices de transformación en inversa para cada tipo de transformación (traslación, rotación y escalado) se pueden obtener.

    Realidad aumentada, virtual y mixta

    • Realidad virtual, aumentada y mixta son diferentes tipos de experiencia inmersiva.
    • VR reemplaza la realidad con una totalmente sintentica.
    • AR magnifica la realidad con contenido virtual.
    • MR se sitúa dentro de un continuo y es una mezcla de ambas.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Este cuestionario explora el tema del procesado de señales audiovisuales con un enfoque en procesado de imagen. A través de preguntas sobre técnicas, modelos de cámara y aplicaciones de inteligencia artificial, profundizaremos en cómo se manejan y analizan imágenes y vídeos en diversos contextos tecnológicos.

    More Like This

    Use Quizgecko on...
    Browser
    Browser