Tema 4: Detección de Características - Apuntes PDF
Document Details
Uploaded by HallowedRadium8054
Tags
Summary
Estos apuntes describen la detección de características en visión por computador. Se incluyen temas como puntos de interés, bordes, líneas, y técnicas de segmentación. El documento cubre conceptos como el detector de esquinas de Harris y el detector de bordes de Canny, destacando su importancia en aplicaciones prácticas.
Full Transcript
Tema 4: Detección de Características La detección de características en visión por computador (VC) es un área clave que permite analizar, procesar y manipular imágenes en diversas aplicaciones. Incluye conceptos como puntos de interés, bordes, líneas, contornos y segmentos. Tabla de contenidos...
Tema 4: Detección de Características La detección de características en visión por computador (VC) es un área clave que permite analizar, procesar y manipular imágenes en diversas aplicaciones. Incluye conceptos como puntos de interés, bordes, líneas, contornos y segmentos. Tabla de contenidos Tabla de contenidos Introducción 1. Puntos de Interés Técnicas populares para detección de puntos de interés 2. Bordes Detección de bordes: 3. Líneas Detección de líneas: Transformada de Hough Implementación en OpenCV: 4. Segmentación Técnicas avanzadas: Segmentación moderna 5. Descriptores de Características Métodos comunes: Comparativa de descriptores: 6. Encaje de Características 7. Evaluación del Encaje de Características Matriz de Confusión Receiver Operating Characteristic (ROC): Elección de Distancia en Encaje Métodos para manejar emparejamientos incorrectos (outliers): 8. Resumen y Consideraciones Finales Introducción La detección de características es fundamental para: Identificar elementos clave en una imagen. Facilitar el alineamiento de imágenes. Reconocer patrones y objetos en diversas escenas. Aplicaciones principales: 1. Detección de formas y elementos: útil en áreas como la robótica, la realidad aumentada y la navegación autónoma. 2. Alineamiento de imágenes: mediante puntos o líneas, se utilizan técnicas como el stitching de imágenes o la estabilización de video. 3. Encaje y correspondencia: comparar puntos de interés entre imágenes para determinar similitudes, como en la búsqueda de imágenes y el seguimiento de objetos. 1. Puntos de Interés ¿Qué es un punto de interés? Un punto de interés es una ubicación singular en una imagen que destaca debido a cambios significativos en su vecindad. Puede estar relacionado con: Esquinas: donde cambian las direcciones. Extremos: como picos o valles en una superficie. Características deseables: Distintivo: que sea único en su contexto. Repetible: puede identificarse en múltiples imágenes incluso con cambios de iluminación, escala o perspectiva. Proceso para trabajar con puntos de interés: 1. Detección: identificar las ubicaciones en la imagen. 2. Descripción: caracterizar el punto mediante descriptores. 3. Encaje: encontrar correspondencias entre puntos en diferentes imágenes. Aplicaciones: Calibración de cámaras. Reconocimiento de patrones. Estabilización de video. Buen punto de interés: Distintivo y repetible: debe ser fácil de identificar en múltiples imágenes. Compacto: requiere menos recursos computacionales para su descripción. Eficiente: permite un encaje rápido entre imágenes. Técnicas populares para detección de puntos de interés Autocorrelación: compara ventanas alrededor de los puntos de interés. Detector de esquinas de Harris (1988): técnica basada en gradientes locales. Se centra en puntos donde el gradiente de intensidad cambia significativamente en dos direcciones. Matriz M que describe el entorno local. Decisión basada en autovalores (λ1 , λ2 ): Si ambos son grandes → esquina. Si uno es grande y el otro pequeño → borde. Si ambos son pequeños → región plana. Limitaciones y mejoras: No invariante a escala, pero puede extenderse usando pirámides de imágenes o técnicas como Harris-Laplace. La normalización y la suavización mejoran la repetibilidad y la precisión. 2. Bordes Los bordes representan límites entre regiones en una imagen. Son esenciales en la percepción humana y en el análisis automático de imágenes. Características de un borde: Frontera entre áreas con distintas propiedades (color, textura, intensidad). Indica cambios de profundidad, iluminación o propiedades de la superficie. Detección de bordes: 1. Operadores de gradiente (Primera derivada): detectan picos donde ocurre un cambio de intensidad significativo. 2. Operadores Laplacianos (Segunda derivada): identifican cruces por cero que corresponden a bordes. 3. Filtros más avanzados: como Sobel, Prewitt y el famoso detector de bordes de Canny. Detector de bordes de Canny: Pasos clave: 1. Suavizar la imagen con un filtro Gaussiano. 2. Calcular gradientes y magnitudes. 3. Aplicar supresión de no máximos (NMS) para identificar bordes precisos. 4. Usar histéresis de umbrales para clasificar píxeles en bordes o no bordes. Ventajas: excelente relación señal-ruido y buena precisión espacial. 3. Líneas Las líneas en una imagen representan contornos estructurados, especialmente en objetos artificiales como edificios, carreteras o componentes mecánicos. Definición: Una línea es una relación matemática entre puntos que pueden describirse en diversas formas, como: Ecuación cartesiana: y = mx + b, donde m es la pendiente y b es la intersección con el eje y. Representación polar: r = x cos θ + y sin θ, donde r es la distancia al origen y θ el ángulo respecto al eje x. Esta forma es útil para detectar líneas en espacios discretos. Detección de líneas: Transformada de Hough La transformada de Hough (1962) es una técnica robusta para detectar líneas en imágenes con ruido o discontinuidades. Proceso básico: 1. Representar cada punto en la imagen (con coordenadas x, y) en un espacio de parámetros (r, θ). 2. Para cada punto, calcular todos los posibles valores de r y θ que podrían definir líneas pasando por dicho punto. 3. Cuantizar el espacio de parámetros (r, θ) y acumular votos en un histograma. 4. Las acumulaciones mayores indican la presencia de líneas en la imagen. Ventajas: Detecta líneas rectas incluso con interrupciones. Es insensible al ruido hasta cierto nivel. Limitaciones: Requiere una buena resolución en el espacio de parámetros para evitar falsas detecciones. Consume tiempo si no se optimiza. Extensiones: Transformada de Hough probabilística: considera subconjuntos de puntos y devuelve extremos de las líneas detectadas (x0 , y0 , x1 , y1 ). Transformada de Hough generalizada: para detectar formas como círculos o elipses. Implementación en OpenCV: # Transformada de Hough estándar lines = cv2.HoughLines(edges, 1, np.pi / 180, threshold) # Transformada de Hough probabilística linesP = cv2.HoughLinesP(edges, 1, np.pi / 180, threshold, minLineLength, maxLineGap) 4. Segmentación La segmentación divide una imagen en regiones o grupos de píxeles con características similares. Es esencial en tareas como: Identificación de objetos. Análisis de regiones homogéneas. Preparación de datos para clasificación. Métodos clásicos de segmentación: 1. Segmentación basada en histogramas: Agrupamiento de píxeles según características como color, brillo o textura. Simplicidad, pero con limitaciones en imágenes complejas. 2. Segmentación basada en regiones: División y unión: se subdivide una imagen en bloques homogéneos y luego se combinan los que cumplen ciertos criterios. Método watershed (cuencas hidrográficas): trata la imagen como un perfil topográfico, inundando desde puntos mínimos y detectando las líneas de separación. 3. Clustering: K-means: agrupa píxeles según características (intensidad, color). Mean shift: identifica regiones densas en el espacio de características para segmentar. 4. Segmentación activa: Snakes: contornos activos que se ajustan a los bordes según funciones de energía. Técnicas avanzadas: Segmentación moderna Segment Anything Model (SAM): Basado en aprendizaje profundo autosupervisado. Capaz de segmentar objetos de múltiples clases sin necesidad de anotaciones previas. Uso flexible y eficiente para imágenes y videos. 5. Descriptores de Características Un descriptor traduce las propiedades de un punto de interés en un vector numérico, permitiendo el encaje entre imágenes. Métodos comunes: 1. SIFT (Scale-Invariant Feature Transform): Desarrollado por David Lowe en 2004. Invariante a escala, rotación y cambios de iluminación. Describe puntos de interés mediante histogramas de gradientes en vecindades 16x16. Vector final de 128 dimensiones que normaliza magnitudes y limita valores extremos. Ventajas: Muy robusto frente a transformaciones. Adecuado para tareas como reconocimiento de objetos y mosaicos de imágenes. 2. SURF (Speeded-Up Robust Features): Similar a SIFT pero más rápido. Usa aproximaciones de LoG (Laplacian of Gaussian) para detectar puntos de interés. 3. ORB (Oriented FAST and Rotated BRIEF): Diseñado para eficiencia computacional. Ideal para sistemas con recursos limitados, como dispositivos móviles. Comparativa de descriptores: Descriptor Invariante a Escala Invariante a Rotación Velocidad Complejidad SIFT Sí Sí Media Alta SURF Sí Sí Alta Media ORB No Sí Muy alta Baja 6. Encaje de Características El encaje determina si dos características en diferentes imágenes corresponden al mismo punto en el mundo real. Técnicas de encaje: Basadas en plantillas: utiliza la correlación o la suma de diferencias cuadráticas (SSD). Basadas en histogramas: compara descriptores como SIFT usando distancias euclídeas. Problemas comunes: Outliers: emparejamientos incorrectos. Solución: usar métodos como RANSAC para filtrar correspondencias inválidas. Implementación en OpenCV: bf = cv2.BFMatcher(cv2.NORM_L2, crossCheck=True) matches = bf.match(descriptor1, descriptor2) matches = sorted(matches, key=lambda x: x.distance) 7. Evaluación del Encaje de Características La calidad del encaje se mide mediante métricas que evalúan el desempeño del sistema en términos de aciertos y errores. Matriz de Confusión Una herramienta para evaluar el rendimiento clasificatorio de encajes: Verdadero Positivo (TP): Emparejamientos correctos detectados. Falso Negativo (FN): Emparejamientos válidos no detectados. Falso Positivo (FP): Emparejamientos incorrectos aceptados. Verdadero Negativo (TN): Emparejamientos incorrectos rechazados correctamente. Métricas derivadas: 1. Precisión (Precision): Proporción de emparejamientos detectados que son correctos. TP Precisioˊn = TP + FP 2. Sensibilidad (Recall): Proporción de emparejamientos válidos detectados. TP Sensibilidad = TP + FN 3. Exactitud (Accuracy): Proporción de decisiones correctas. TP + TN Exactitud = TP + TN + FP + FN Receiver Operating Characteristic (ROC): Analiza la sensibilidad (TPR) frente a la tasa de falsos positivos (FPR) para distintos umbrales de decisión. Curvas ROC comparan modelos de encaje, buscando el área bajo la curva (AUC) como indicador de rendimiento. Elección de Distancia en Encaje 1. Euclídea: Medida estándar que calcula la raíz cuadrada de la suma de las diferencias al cuadrado. n d(a, b) = ∑ (ai − bi )2 i=1 2. Minkowski: Una generalización de la distancia Euclídea con un parámetro p: n 1/p d(a, b) = ( ∑ ∣ai − bi ∣ p ) i=1 3. Mahalanobis: Considera correlaciones entre variables y la escala de las medidas. d(a, b) = (a − b)T Σ−1 (a − b) 4. Similitud coseno: No mide distancia, sino la orientación entre vectores. Su valor varía entre -1 y 1. a⋅b cos(θ) = ∣∣a∣∣∣∣b∣∣ Métodos para manejar emparejamientos incorrectos (outliers): 1. RANSAC (Random Sample Consensus): Selecciona muestras aleatorias de correspondencias. Calcula un modelo y cuenta los inliers (coincidencias válidas). Escoge el modelo con más inliers. Implementación en OpenCV: H, mask = cv2.findHomography(points1, points2, cv2.RANSAC, threshold) 2. Técnicas modernas basadas en Deep Learning: SuperPoint (2018): Combina detección y descripción de características. LightGlue (2023): Más eficiente y precisa al usar puntos y líneas como entradas. 8. Resumen y Consideraciones Finales La detección de características es una base fundamental en visión por computador. Abarca desde el análisis básico (bordes, líneas, esquinas) hasta técnicas avanzadas como descriptores invariantes y correspondencia robusta. Aspectos clave: 1. Puntos de Interés: Detectados por su unicidad y repetibilidad. Descriptores robustos como SIFT permiten caracterizar los puntos. 2. Bordes y Líneas: Los bordes destacan discontinuidades y las líneas representan estructuras geométricas. Herramientas como el detector de Canny o la Transformada de Hough son esenciales. 3. Encaje: Determina las relaciones entre imágenes. Métodos como RANSAC filtran correspondencias incorrectas. 4. Segmentación: Agrupa píxeles en regiones homogéneas. Las técnicas modernas, como SAM, ofrecen una segmentación más precisa y adaptable. 5. Evaluación: Métricas como precisión, sensibilidad y curvas ROC permiten validar el rendimiento de los métodos implementados. Tema 5: Reconocimiento de Objetos Tema 5: Reconocimiento de Objetos 1. Introducción Tareas principales de VC relacionadas con el reconocimiento de objetos: 2. Detección de Objetos Definición: Retos de la detección de objetos: Métodos clásicos (pre-Deep Learning): Avances con Deep Learning: 3. Segmentación Semántica Definición: Tipos de segmentación: Métodos destacados: 4. Evaluación del Desempeño Métricas Clave: Criterios de Detección: 5. Comprensión de Vídeo Aplicaciones: Técnicas modernas: 6. Clasificación y Reconocimiento Definición: Diferencias principales: Enfoques tradicionales y modernos: Tendencias recientes: 7. Técnicas de Evaluación Experimental Importancia: Métodos comunes: Métricas de rendimiento: 8. Comprensión de Vídeo Definición: Tareas principales: Herramientas y técnicas modernas: 9. Visión y Lenguaje Propósito: Aplicaciones comunes: Modelos destacados: 10. Resumen Final Conceptos clave: 1. Introducción El reconocimiento de objetos es una tarea fundamental en Visión por Computador (VC) que abarca diversas subcategorías, incluyendo la clasificación, la detección y la segmentación. Tareas principales de VC relacionadas con el reconocimiento de objetos: 1. Clasificación de imagen: Determina si una imagen contiene un objeto específico o pertenece a una clase. Ejemplos: "¿Es un gato?" "¿Qué tipo de escena es esta?" 2. Reconocimiento de ejemplares (instance recognition): Localiza instancias específicas de objetos conocidos. Ejemplos: "Encuentra este edificio." "Busca a esta persona." 3. Detección de objetos: Localiza múltiples objetos en una imagen y los etiqueta. Ejemplo: Identificar coches y personas en una escena urbana. 4. Comprensión de vídeo: Analiza relaciones entre objetos y actividades a lo largo del tiempo. Ejemplo: "¿Qué está haciendo esta persona?" 2. Detección de Objetos Definición: La detección consiste en localizar objetos específicos dentro de una imagen, generalmente delimitándolos con contenedores (bounding boxes). Retos de la detección de objetos: Iluminación: Cambios en las condiciones de luz afectan la apariencia. Pose: Variación en orientaciones del objeto. Fondo: Complejidad de los escenarios detrás del objeto. Oclusiones: Los objetos pueden estar parcialmente bloqueados. Variaciones intraclase: Diferencias dentro de la misma categoría de objeto. Métodos clásicos (pre-Deep Learning): 1. Viola-Jones (2001): Diseñado para detectar rostros en tiempo real. Utiliza un clasificador en cascada con características de Haar. Ventajas: detección rápida y eficiente en computación. Limitaciones: no robusto ante variaciones en pose o iluminación. 2. Dalal y Triggs (2005): Introdujeron Histogram of Oriented Gradients (HOG) para detectar peatones. Utilizan Máquinas de Vectores Soporte (SVM) para clasificar ventanas. Ventajas: robustez a cambios moderados de pose. Limitaciones: incapaz de manejar deformaciones complejas. 3. Modelos basados en partes (DPM, 2009): Deformable Part Models modelan objetos como una combinación de partes conectadas. Permiten tolerar deformaciones moderadas. Limitaciones: computacionalmente costosos y dependientes de parámetros. Avances con Deep Learning: 1. R-CNN (2014): Introdujo redes neuronales convolucionales para extraer características. Utiliza propuestas de regiones para analizar posibles objetos. Limitaciones: lento en la fase de inferencia. 2. Faster R-CNN (2015): Optimiza la propuesta de regiones mediante una Red de Propuesta de Regiones (RPN). Combina detección de regiones y clasificación en un único modelo. 3. YOLO (You Only Look Once): Modelo de una sola etapa que predice directamente contenedores y clases. Ventajas: Más rápido que Faster R-CNN. Adecuado para aplicaciones en tiempo real. Limitaciones: precisión ligeramente menor en comparación con modelos de dos etapas. 4. RetinaNet (2017): Introdujo la Focal Loss para manejar el desequilibrio entre clases comunes y raras. Ofrece un equilibrio entre precisión y velocidad. 3. Segmentación Semántica Definición: La segmentación semántica clasifica cada píxel de una imagen en categorías, como "coche," "persona," o "fondo." Tipos de segmentación: 1. Semántica: Clasifica píxeles por clase. Ejemplo: identificar "césped" y "cielo" en una foto de un paisaje. 2. De ejemplares (Instance Segmentation): Diferencia entre múltiples instancias de la misma clase. Ejemplo: detectar y etiquetar tres coches en una carretera. 3. Panóptica: Combina segmentación semántica y de ejemplares. Etiqueta píxeles de objetos y el resto de la imagen. Métodos destacados: 1. Mask R-CNN (2017): Extensión de Faster R-CNN que agrega una cabeza de predicción de máscaras. Precisa para segmentación a nivel de píxeles. 2. U-Net: Arquitectura en U simétrica diseñada para segmentación biomédica. Conexiones de salto preservan información espacial. 3. SAM (Segment Anything Model): Segmentación avanzada sin necesidad de anotaciones previas. Capaz de generalizar para múltiples clases. 4. Evaluación del Desempeño Métricas Clave: 1. Precisión (Precision): Proporción de detecciones correctas sobre el total de predicciones. TP Precisioˊn = TP + FP 2. Exhaustividad (Recall): Proporción de detecciones correctas sobre el total de objetos verdaderos. TP Recall = TP + FN 3. Promedio de Precisión (AP): Promedio de precisión para un umbral de IoU específico. 4. Precisión Promedio Media (mAP): Media de las APs para todas las clases evaluadas. Criterios de Detección: IoU (Intersection over Union): Mide la superposición entre la predicción y el contenedor verdadero. Valores comunes: IoU > 0.5 se considera un acierto. 5. Comprensión de Vídeo Aplicaciones: 1. Reconocimiento de actividades humanas (HAR): Identifica acciones como "caminar" o "correr" en secuencias de video. 2. Seguimiento de objetos: Usa flujo óptico o redes profundas para rastrear movimiento. 3. Análisis deportivo: Ejemplo: predicción de la trayectoria de un balón en fútbol. Técnicas modernas: Redes profundas 3D (3D CNNs). Modelos de memoria a largo plazo (LSTM). 6. Clasificación y Reconocimiento Definición: El reconocimiento de objetos puede dividirse en dos categorías principales: 1. Reconocimiento de ejemplares (Instance Recognition): Identifica objetos específicos dentro de una clase conocida. Ejemplo: reconocer un edificio concreto o una persona específica. 2. Reconocimiento de clases o categorías: Clasifica objetos genéricos en una categoría. Ejemplo: distinguir entre "perro" y "gato." Diferencias principales: Reconocimiento de ejemplares: aborda problemas más restringidos, útiles en aplicaciones específicas como reconocimiento facial o búsqueda de imágenes. Clasificación de categorías: más general y requiere modelos que puedan manejar alta variabilidad intraclase. Enfoques tradicionales y modernos: 1. Métodos tradicionales: Bag of Words (BoW): Representa imágenes como un histograma de características clave. Ignora relaciones geométricas entre las características. Modelos basados en partes: Representan objetos mediante partes conectadas y relaciones espaciales. Importancia del contexto en la clasificación. 2. Aprendizaje profundo (Deep Learning): Desde AlexNet (2012), las redes neuronales convolucionales (CNNs) dominan este campo. Capaces de manejar grandes conjuntos de datos y resolver problemas complejos. Ejemplo: ResNet, EfficientNet. Tendencias recientes: Fine-grained categorization: Diferenciación entre subcategorías con variaciones sutiles. Aplicaciones: taxonomía biológica, clasificación médica. Zero-shot learning: Reconoce categorías no vistas durante el entrenamiento. Utiliza descripciones textuales para relacionar clases nuevas. 7. Técnicas de Evaluación Experimental Importancia: La evaluación experimental valida el desempeño de los modelos y garantiza que las conclusiones sean generalizables. Métodos comunes: 1. Hold-Out: Divide el conjunto de datos en entrenamiento y prueba (usualmente 2:1 o 3:1). Ventajas: simple y directo. Limitaciones: depende de la división inicial de datos. 2. Validación cruzada (k-fold cross-validation): Divide los datos en k subconjuntos. Se usa uno para prueba y los demás para entrenamiento, iterando k veces. Ventajas: utiliza todas las muestras para entrenamiento y prueba. Comúnmente k = 5 o k = 10. 3. Validación aleatoria repetida: Repite múltiples divisiones aleatorias entre datos de prueba y entrenamiento. Ventajas: reduce sesgos. Limitaciones: riesgo de no usar todas las muestras para prueba. 4. Leave-One-Out Cross-Validation (LOOCV): Usa una muestra como prueba y el resto como entrenamiento. Itera hasta usar todas las muestras. Ventajas: máxima utilización de datos. Limitaciones: costoso computacionalmente. Métricas de rendimiento: Precisión (Precision): Proporción de predicciones correctas entre las predicciones positivas. Exhaustividad (Recall): Proporción de verdaderos positivos detectados. Curvas Precision-Recall: Comparan estas dos métricas para diferentes umbrales. Mean Average Precision (mAP): Promedio de la precisión para todas las clases. 8. Comprensión de Vídeo Definición: La comprensión de vídeo implica analizar dinámicamente escenas para identificar relaciones temporales entre objetos y eventos. Tareas principales: 1. Reconocimiento de actividades humanas (HAR): Ejemplo: detectar acciones como "saltar," "caminar," o "sentarse." 2. Seguimiento de objetos: Técnicas como flujo óptico o redes profundas permiten rastrear objetos a lo largo del tiempo. 3. Análisis de escenas dinámicas: Identifica interacciones complejas entre objetos en movimiento. Herramientas y técnicas modernas: Redes profundas 3D (3D CNNs) para analizar secuencias de video. Modelos de memoria a largo plazo (LSTM) para capturar dependencias temporales. 9. Visión y Lenguaje Propósito: Integrar la Visión por Computador (VC) con el Procesamiento de Lenguaje Natural (NLP) para desarrollar sistemas de IA más completos. Aplicaciones comunes: 1. Image Captioning: Generar subtítulos o descripciones para imágenes. Ejemplo: "Una persona montando en bicicleta junto a un lago." Ejemplos de modelos: CLIP, DenseCap. 2. Modelos de pregunta-respuesta visual (VQA): Responder preguntas basadas en una imagen. Ejemplo: "¿Cuántas personas hay en esta foto?" 3. Text-to-Image: Generar imágenes a partir de descripciones textuales. Ejemplo: "Un gato sobre una almohada roja." Ejemplos: DALL-E, Stable Diffusion, MidJourney. Modelos destacados: CLIP: Combina codificadores de imágenes y texto para tareas multimodales. Transformers para visión (ViT): Extienden la arquitectura de transformers al análisis de imágenes. 10. Resumen Final El reconocimiento de objetos es un campo central en Visión por Computador con aplicaciones que abarcan desde la clasificación básica hasta la comprensión avanzada de video y tareas multimodales con lenguaje. Conceptos clave: Métodos tradicionales: Técnicas como HOG y modelos basados en partes fueron fundamentales antes de la llegada del aprendizaje profundo. Deep Learning: Revolucionó el campo, permitiendo mayor precisión y robustez en detección y segmentación. Evaluación: Herramientas como mAP y validación cruzada son esenciales para medir el rendimiento. Tendencias modernas: Integración de visión y lenguaje, segmentación avanzada (SAM), y aprendizaje multimodal con transformers. Apuntes Tema 6: Aplicaciones en Biometría Apuntes Tema 6: Aplicaciones en Biometría 1. Introducción a la biometría 2. Historia de la biometría 3. Definición de biometría 4. Realidades y mitos en biometría 5. Mecanismos de identificación 6. Ventajas y desventajas de la biometría 7. Componentes de un sistema biométrico 8. Evaluación de sistemas biométricos 9. Aplicaciones de la biometría 10. Rasgos biométricos 11. Análisis del rostro humano 12. Identificación biométrica 13. Problemas y retos en biometría 14. Biometría blanda 15. Retos en privacidad 16. Generalización de modelos biométricos 17. Sistema ENCARA2 18. Deepfakes y biometría 19. Resumen de los retos actuales 1. Introducción a la biometría La biometría busca responder preguntas cruciales sobre la identidad de una persona: ¿Es esta persona quien dice ser? ¿Puede acceder al sistema solicitado? ¿Tiene los privilegios requeridos? Razones principales del uso de biometría: 1. Evitar la negación de autoría: cuando alguien busca deslindarse de una acción cometida. 2. Reemplazar sistemas tradicionales como contraseñas o documentos: el rostro, por ejemplo, facilita la identificación en entornos familiares o conocidos. 2. Historia de la biometría Los rasgos biométricos se han utilizado desde la antigüedad para identificar individuos: Prehistoria: Las huellas de manos en cuevas eran una firma. Babilonia (500 a.C.): Huellas dactilares en transacciones comerciales. China (Siglo XIV): Relatos de Joao de Barros mencionan su uso. Siglo XIX: La necesidad de identificar a las personas aumentó con el crecimiento urbano. Sistema Bertillon: Clasificación antropométrica (medidas corporales). Avances posteriores: Francis Galton: Propone el análisis de minucias en huellas dactilares. Edward Henry: Implementa huellas dactilares en India como alternativa al Bertillonage. 1930: Se propone el uso del iris como identificador único. Década de 1960: Desarrollo del sistema automatizado de huellas dactilares (AFIS). 3. Definición de biometría La palabra proviene del griego “bios” (vida) y “metron” (medida). Concepto: Ciencia que identifica a individuos mediante características físicas, químicas o comportamentales. Propósito: Solución basada en el cuerpo para evitar fraudes y accesos no autorizados. Tipos de reconocimiento biométrico: 1. Identificación (1:N): Comparar a una persona con una base de datos. 2. Verificación (1:1): Comparar a una persona con un registro específico. 4. Realidades y mitos en biometría Mitos: Inspirados en la ficción (cine): Reconocimiento facial instantáneo y perfecto. Procesamiento de ADN automático y universal. Realidad: Factores como iluminación, ángulo y calidad afectan el rendimiento. No es completamente fiable y requiere intervención humana. Sistemas limitados por leyes y formatos específicos. 5. Mecanismos de identificación Actualmente, los métodos de autenticación se agrupan en: 1. Algo que se tiene: Tarjetas de identificación. 2. Algo que se sabe: Contraseñas, PINs. 3. Algo que se es: Rasgos corporales o comportamentales (biometría). Problemas comunes de métodos tradicionales: Robo de credenciales. Phishing o técnicas de observación. Imposibilidad de probar autenticidad. Estadísticas: Más de 2.2 millones de casos de robo de identidad en EE.UU. en 2020. 6. Ventajas y desventajas de la biometría Ventajas: Detecta intentos de duplicar identidades. Reduce la posibilidad de negar autoría ("yo no fui"). Desventajas: Problemas de privacidad. Error en caso de datos incompletos o falsos positivos. Rasgos biométricos no pueden ser "restablecidos" como una contraseña. 7. Componentes de un sistema biométrico Módulos principales: 1. Sensor: Captura datos iniciales. 2. Extractor de características: Procesa las características relevantes. 3. Clasificador: Compara con patrones conocidos. 4. Base de datos: Almacena modelos y plantillas. Ejemplo: Huella dactilar: Crestas y valles analizados en minucias (bifurcaciones o terminaciones). Iris: Procesamiento de contornos y texturas únicas. 8. Evaluación de sistemas biométricos Para medir la eficacia de un sistema biométrico, se utilizan métricas basadas en el rendimiento de clasificación: 1. Tasas de error: FAR (False Acceptance Rate): Porcentaje de impostores aceptados incorrectamente. FRR (False Rejection Rate): Porcentaje de genuinos rechazados incorrectamente. GAR (Genuine Acceptance Rate): Porcentaje de genuinos aceptados correctamente, equivalente a GAR = 1 − FRR. EER (Equal Error Rate): Punto en el que F AR = FRR, una medida de equilibrio del sistema. 2. Curvas de evaluación: DET (Detection Error Tradeoff): Muestra F AR contra FRR a diferentes umbrales. ROC (Receiver Operating Characteristic): Relación entre GAR y F AR. AUC (Area Under Curve): Representa la eficacia global del sistema. 3. Otras métricas: FTA (Failure to Acquire): Fallos en la captura de la muestra biométrica. FTE (Failure to Enroll): Fracción de usuarios que no logran registrarse correctamente. 9. Aplicaciones de la biometría Ámbitos principales de aplicación: Seguridad y justicia: Identificación forense, investigación criminal, control de fronteras. Acceso y autenticación: Dispositivos móviles, sistemas de pago, cajeros automáticos. Personalización y análisis de audiencia: Publicidad dirigida según datos demográficos. Otros: Voto electrónico, control de dispositivos peligrosos (smart guns). Ejemplo destacado: El programa US-VISIT en EE.UU. utiliza biometría para controlar la inmigración mediante huellas dactilares y reconocimiento facial. 10. Rasgos biométricos Un sistema biométrico puede basarse en diferentes tipos de rasgos, agrupados en: 1. Biológicos: ADN. 2. Fisiológicos: Huella dactilar, rostro, iris, geometría de la mano, venas, etc. 3. Comportamentales: Voz, firma, ritmo de tecleo, forma de caminar. Características deseadas de un rasgo ideal: Universalidad: Presente en toda la población. Singularidad: Diferenciable entre individuos. Permanencia: Constante a lo largo del tiempo. Medibilidad: Fácil de adquirir y procesar. Aceptabilidad: No invasivo y respetuoso con la privacidad. Ejemplo de rendimiento: En un aeropuerto con más de 300,000 pasajeros diarios: 600 personas serían rechazadas con sistemas basados en huella dactilar. 30,000 personas con reconocimiento facial. 45,000 personas con reconocimiento por voz. 11. Análisis del rostro humano El reconocimiento facial tiene características únicas que lo diferencian de otros métodos biométricos: Fortalezas: Sin contacto: Se puede usar a distancia. No requiere colaboración: Ideal para vigilancia en lugares públicos. Fácil integración: Utiliza cámaras comunes, como las de videovigilancia. Debilidades: Sensibilidad a factores externos: Iluminación, pose, maquillaje, vello facial. Problemas de privacidad: Uso indebido de datos faciales. Errores ante multitudes: Reconocimiento menos fiable en entornos con gran cantidad de personas. Aplicaciones específicas: Detección de emociones o expresiones. Reconocimiento de género o edad. Identificación en estaciones, aeropuertos o eventos masivos. 12. Identificación biométrica Pasos en el proceso de identificación: 1. Detección: Localización del rostro o rasgo biométrico en la entrada. 2. Normalización: Alineación para garantizar una representación uniforme. 3. Extracción de características: Obtención de los patrones únicos. 4. Selección de características: Filtrar solo las más relevantes para la tarea. 5. Clasificación: Comparación con las plantillas almacenadas en la base de datos. Tipos de entrada: Imágenes: Fotografía estática o de vídeo. Termogramas: Análisis de temperaturas corporales (uso en IR). Infrarrojos: Detección de patrones no visibles en espectros comunes. Técnicas avanzadas: Autocaras (PCA): Análisis en subespacios para reducir dimensionalidad. Filtros de Gabor: Capturan orientación y frecuencia en puntos clave del rostro. Patrones locales (LBP): Descriptor basado en texturas para resistencia a cambios de iluminación. 13. Problemas y retos en biometría Principales desafíos: 1. Variabilidad intraclase: Cambios en un mismo individuo (edad, expresiones). 2. Privacidad: Riesgo de almacenamiento centralizado de datos biométricos. 3. Interoperabilidad: Integración de sistemas heterogéneos con distintos formatos. 4. Robustez ante ataques: Vulnerabilidad a deepfakes y otras técnicas de suplantación. Casos específicos: Deepfakes: Riesgo creciente en la manipulación de imágenes y vídeos. Discriminación algorítmica: Algoritmos menos precisos con ciertas tonalidades de piel o rasgos. Propuestas de solución: Técnicas generativas como la síntesis de datos y la perturbación de muestras. Métodos avanzados de detección antifraude. 14. Biometría blanda La biometría blanda se centra en describir atributos visuales no únicos de las personas, como género, edad, expresión facial o etnia. Aunque estos rasgos no son suficientes para identificar a un individuo por sí solo, son útiles en combinación con otros sistemas. Características principales de la biometría blanda: No identifica, describe. Más rápida y menos invasiva. Aplicable en análisis de audiencia y publicidad. Aplicaciones destacadas: 1. Análisis de audiencia: Determinar características demográficas como género, edad, etnia o tiempo de atención. Dirigir mensajes específicos al público adecuado en el momento preciso. 2. Publicidad interactiva: Mejorar la experiencia del cliente mediante personalización. Aumentar el impacto de escaparates y displays. 3. Clasificación por género: Problema bi-clase. Generalmente basado en análisis facial o del cuerpo. Ejemplo técnico: Uso de patrones locales como los LBP para detectar diferencias sutiles entre rostros masculinos y femeninos. Publicidad creativa en tiempo real basada en datos demográficos captados por cámaras. 15. Retos en privacidad El uso masivo de la biometría plantea preocupaciones éticas y legales relacionadas con la privacidad y la seguridad de los datos. Aspectos clave: 1. Privacidad de los datos: ¿Cómo se almacenan los rasgos biométricos? Riesgo de bases de datos centralizadas. 2. Uso sin consentimiento: Identificación encubierta vs. visible. Tecnología utilizada para seguimiento secreto de personas. 3. Impacto cultural y social: Diferencias en aceptación dependiendo de la región o cultura. 4. Sectores de aplicación: Riesgos mayores en el sector público que en el privado debido al alcance del uso. Ejemplo: El caso de Clearview AI, que recopila imágenes públicas de redes sociales para alimentar bases de datos sin consentimiento de los usuarios, generando controversia y demandas legales. 16. Generalización de modelos biométricos El rendimiento de los sistemas biométricos puede verse afectado cuando se enfrentan a condiciones diferentes a las de su entrenamiento original. Problemas comunes: Domain gap: La discrepancia entre el dominio del entrenamiento y el dominio de aplicación real. Sesgo de entrenamiento: Datasets no representativos que conducen a algoritmos discriminatorios. Técnicas para mitigar problemas: 1. Adaptación de dominio: Transformar el dominio objetivo para que se asemeje al de entrenamiento. 2. Aumento de datos: Generar nuevas muestras mediante técnicas como perturbación de datos, síntesis de imágenes y adversarial noise. 3. Uso de datos sintéticos: Generar datasets representativos para cubrir variabilidad en condiciones reales. Impacto: Mejorar la robustez de los sistemas y garantizar un desempeño adecuado "in the wild", con variaciones de iluminación, pose y expresiones. 17. Sistema ENCARA2 ENCARA2 es un sistema avanzado para la detección en tiempo real de múltiples rostros en flujos de vídeo, combinando técnicas para lograr precisión y eficiencia. Características técnicas principales: 1. Detección inicial: Basada en el algoritmo de Viola-Jones para rostros frontales. 2. Seguimiento: Coherencia temporal utilizando características como el color y el seguimiento de ojos o del rostro completo. 3. Versatilidad: Adecuado para imágenes menos controladas. Ventajas: Alta tasa de detección (99.9% para rostros y 92% para ojos). Bajos tiempos de procesamiento (45 ms por imagen). Excelente rendimiento en entornos no estructurados. Evaluación: Probado en 80 vídeos con 54 individuos, analizando un total de 26,360 imágenes. 18. Deepfakes y biometría Los deepfakes representan un nuevo desafío para la biometría, ya que permiten la manipulación realista de imágenes y vídeos con fines maliciosos. Problemas asociados: 1. Suplantación de identidad: Uso de deepfakes para engañar sistemas biométricos. 2. Manipulación del discurso: Modificación de vídeos de figuras públicas para crear desinformación. 3. Amenaza a la privacidad: Generación de imágenes falsas sin consentimiento. Sistemas de detección antifraude: 1. Face anti-spoofing: Detectar anomalías en la textura o dinámica del rostro. 2. Forensia digital: Análisis de la compresión de la imagen para identificar ediciones. 3. DFDC (Deepfake Detection Challenge): Plataforma de evaluación para mejorar herramientas de detección. Ejemplo positivo: Proyectos como el "In Event of Moon Disaster" muestran cómo los deepfakes pueden utilizarse en arte y educación. 19. Resumen de los retos actuales 1. Técnicos: Interoperabilidad entre sistemas. Mejora de tasas de error (FAR y FRR). Protección contra ataques y falsificaciones. 2. Sociales: Aceptación cultural. Impacto en la privacidad y confianza del usuario. 3. Legales: Falta de regulaciones claras sobre almacenamiento y uso de datos biométricos.