Cours 4 Perception : Reconnaissance d'objets - PDF

Document Details

SmilingHaiku

Uploaded by SmilingHaiku

Université de Montréal

Tags

perception reconnaissance d'objets neuroscience traitement visuel

Summary

Ce cours de perception examine la reconnaissance d'objets, en explorant les défis de la reconnaissance visuelle et en présentant diverses théories, telles que les théories des gabarits, des prototypes et des exemplaires. Il aborde également les modèles computationnels tels que les réseaux neuronaux profonds et les principes de la Gestalt. Les étudiants apprennent comment le cerveau intègre l'information pour construire des objets et comment les aspects de la vision de niveau intermédiaire affectent la perception.

Full Transcript

Cours 4 -- Percevoir et reconnaître les objets ============================================== **Importance de la reconnaissance d'objets** - Survie et interaction avec notre environnement - Naviguer le monde, reconnaître dangers, trouver nourriture, interactions sociales, poursuite de nos...

Cours 4 -- Percevoir et reconnaître les objets ============================================== **Importance de la reconnaissance d'objets** - Survie et interaction avec notre environnement - Naviguer le monde, reconnaître dangers, trouver nourriture, interactions sociales, poursuite de nos buts - Technologie - Systèmes qui améliorent : - Sécurité - Santé - Bien-être - Conduite autonome - Détection précoce de maladies dans des images médicales **Défis computationnels et leçons de la neuroscience** - Difficulté à créer des systèmes de reconnaissance d'objets efficaces montre la complexité du traitement visuel dans le cerveau - Variabilité des objets - Contexte (cooccurrence statistique dans une scène) - Conditions d'éclairage - Exige des systèmes : - Capables d'abstraction et de généralisation à partir d'exemples limités - Similaires à la capacité humaine d'apprendre et de reconnaître des objets nouveaux ou peu familiers - Problème de la reconnaissance d'objets - Comment on reconnaît que 4x éléphant ? - Comment système visuel passe des points lumineux (comme pixels) à des entités entières dans le monde comme éléphants ? **Les éléments locaux et globaux** - Analogie des 5 personnes aveugles - Cercles blancs représentent champs récepteurs - Imaginer que cercles blancs sont ce qui peut être touché par chacune des 5 personnes aveugles - Ensemble, peuvent formuler que peut-être un éléphant, mais seul : impossible - Autre problème : certains aveugles/parties du champs récepteurs reçoivent le zèbre... ![](media/image2.png) **Théories de la reconnaissance des objets** [Théorie des gabarits (ou *templates)*] - Système visuel reconnait les objets en faisant correspondre la représentation neuronale de l'image avec une représentation interne de la même « forme » dans le cerveau - Problème : doit avoir un gabarit différent pour chaque objet/exemplaire qu'on rencontre peu plausible voire impossible [Théorie des prototypes] - Eleanor Rosch, 1970 - Introduit l'idée de catégories cognitives organisées autour de prototypes - Prototype - Membre typique/moyen d'une catégorie - Possède caractéristiques les plus représentatives de cette catégorie - Classement plus rapide lorsqu'objet est proche du prototype - Ex : Pour les oiseaux : robin est considéré plus typique que pingouin [Théorie des exemplaires] ![](media/image4.png) - Robert Nosofsky, années 80 - Classement en se basant sur comparaison avec des exemples spécifiques (exemplaires) rencontrés dans le passé plutôt que par comparaison avec un prototype moyen/idéal d'une catégorie [Théorie de reconnaissance généralisée *(General recognition theory)*] - Gregory Ashby, 1986 - Extension multidimensionnelle de SDT (*signal detection theory)* - Reconnaissance d'objet comme processus de décision probabiliste - Si objets ont un grand *overlap* de caractéristiques : 2 exemplaires du même objet [Théorie de reconnaissance par composantes] - Biederman - Soutien que les objets sont reconnus par les identités et les relations de leurs composants - Hypothèse de la nature des objets à partir de la relation entre les **géons** - Structuralisme - 36 géons en tout permettent de créer un nombre infini d'objets [Modèles computationnels de reconnaissance des objets] - Réseau neuronal profond (DNN) - Réseaux à plusieurs niveaux - Peuvent être entraînés à reconnaître les objets - Nombreuses instances d'un objet montrées + feedback - Fil du temps reconnaissance de nouvelles instances de l'objet (auxquelles il n'a jamais été entraîné) est possible - Aujourd'hui : Alexnet - Info d'un groupe de récepteurs communique avec la couche subséquente qui les traite - Comparable au concept des 5 aveugles - Contrairement aux modèles bio-inspirés précédents : - Rivalisent avec performances de représentation du cortex IT chezz le singe (Cadieu et al. 2014) - Représentations d'un modèle DNN de reconnaissance d'objet « expliquent » les représentations mesurées dans IT avec l'IRMf (Khalig- Razavi, 2014) - En utilisant un DNN pour modaliser les propriétés visuelles du stimulus, les auteurs montrent que les propriétés de niveau intermédiaire et de haut niveau des images peuvent prédire la conscience visuelle, et peuvent fournir une explication mécanistique du phénomène du clignement attentionnel (Lindh et al. 2019) [Théorie des cellules grand-mère] - Cellules « grand-mères » - Initialement une anecdote lancée par Jerry Lettvin au MIT, 1969 - Contribue au débat « localisé » VS « distribué » - Étude de Quiroga, années 2000, « confirme » l'existence de ces cellules - Cellule Jennifer Aniston - Répond à elle et sa voix - Même si coupe de cheveux différe, lunette, etc. - Ne s'active pas si elle est accompagnée - Ne s'active pas pour une actrice au look similaire - Semble démontrer la présence de cellules qui répondent à des concepts uniques [Vitrine sur les neurones dans le cerveau humain] - Cortex - 81,8% de masse cérébrale - 19% des neurones du cerveau - Aires sous-corticales - 7,8% de masse cérébrale - 0,8% des neurones du cerveau - Cervelet - 10,3% de masse du cerveau - 80,2% des neurones DONC - Malgré travaux de Quiroga, existence de neurones grand-mères peu probable - Blessure = oubli complet - Trop de concepts pour nb de neurones [Approche intégrant les théories] - Ritchie et Carlson - Essaient d'intégrer TDS, general recognition theory, théorie des exemplaires, théorie des prototypes et plus - Ont demandé aux gens de dire si un objet est animé ou inanimé - Mis le TR nécessaire pour faire catégorisation en lien avec les représentations de ces mêmes objets dans le cortex - Ont montré que plus un objet est loin de la frontière décisionnelle, plus rapidement le patient détecte la catégorie ![](media/image12.png) - Drift defusion - Combien d'évidences nécessaires avant qu'on prenne une décision ? - Plus objets est près de la frontière décisionnelle, moins d'indices sont nécessaires pour le détecter - Attention : à ne pas confondre avec la frontière de ressemblance - Si bcp de *overlap* entre les caractéristiques de l'objet à reconnaître et autres objets - Temps de décision plus long **Intégration de l'information pour construire les objets** [Des lignes et bordures aux propriétés des objets] - Cellules ganglionnaires rétiniennes et LGN = taches - V1 = barres - Aires extrastriées = opérations plus sophistiquées - Champs récepteurs plus sophistiquées que cortex extrastrié - Répodent à des propriétés visuelles importantes pour perception d'objets - Ex : *boudary ownership =* Pour une frontière donne, quel côté fait partie de l'objet et quel côté fait partie de l'arrière-plan - Certains neurones vont répondre à des bordures qui vont répondre à différentes surfaces/textures dans V2 - Vision de niveau intermédiaire - Étape vaguement définie du traitement visuel - Intervient après les caractéristiques de base aient été extraites de l'image - Avant la reconnaissance d'objet et compréhension de scène (vision de haut niveau) - Implique la perception des bords et des surfaces - Détermine quelles régions d'une image doivent être regroupées en objets - Détection des bords - Cellules de V1 ont des petits champs récepteurs - Détecteurs de bords informatisés ne sont pas aussi performant que ceux des humains - Contours illusoires - Contour perçu même si rien ne change d'un côté du contour à l'autre [Théorie de la Gestalt] - « Le tout est plus grand que la somme des parties » - Si on regarde en isolation : fleurs/légumes - Si on regarde l'ensemble : un buste - Opposé à d'autres écoles de pensée comme structuralisme - Mettent l'accent sur les éléments de base de la perception - Règles de regroupement Gestalt - Ensemble de règles qui décrivent quand les éléments d'une image apparaîtront comme s'ils étaient regroupés 1. Bonne continuation a. Deux éléments auront tendance à se regrouper s'ils se trouvent sur le même contour b. N'explique pas tout... 2. Segmentation et regroupement des textures c. Segmentation de texture  i. Découpage d'une image en régions de propriétés de textures communes ii. Regroupement des textures dépend des statistiques des textures dans une région par rapport à une autre. 3. Similarité et proximité d. Éléments similaires ont tendance à se regrouper e. Objets proches les uns des autres ont tendance à se regrouper ![](media/image28.png) 4. Segmentation et regroupement des textures f. Parallélisme iii. Contours parallèles appartiennent probablement au même groupe g. Symétrie  iv. Régions symétriques sont plus susceptibles d'être considérées comme un groupe h. Région commune v. Éléments sont regroupés s'ils semblent appartenir à la même région plus grande i. Connectivité vi. Éléments ont tendance à se regrouper s'ils sont connectés - Proximité Vs région commune - Camouflage - Animaux exploitent principes du groupement de la Gestalt pour se regrouper dans leur environnement - Utilisé pour confondre l'observateur/prédateur - Les comités de la Gestalt - Ambiguïté et « comités » perceptifs - Métaphore du fonctionnement de la perception - Comités doivent intégrer les avis contradictoires - Nombreux principe différents et parfois concurrents sont impliqués dans la perception - Perception résulte du consensus qui se dégage - Lors du traitement de l'info - Combine info des neurones qui répondent à différentes caractéristiques - Règles du comité - Respecter la physique et évitez les accidents - Figure ambiguë - Stimulus visuel qui donne lieu à plusieurs interprétations de son identité ou de sa structure - Tendance à obéir aux lois de la physique - Point de vue accidentel : - Position de visualisation - Produit une certaine régularité dans l'image visuelle qui n'est pas présente dans le monde - Comités de perception supposent que les points de vue ne sont pas accidentels - Tourisme accidentel - Discrimination fond-figure - Déterminer quelle partie appartient au fond VS à la figure - Principes de discrimination figure-fond - Entourage - Zones qui peuvent être entourées par d'autres ont tendance à être considérées comme des figures - Taille - Plus petite région est susceptible d'être la figure - Symétrie - Région symétrique a tendance à être considérée comme une figure - Parallélisme - Régions aux contours parallèles ont tendance à être considérées comme des figures - Mouvement relatif - Si une région se déplace devant une autre, la région la plus proche est représentée - Caractéristique non-accidentelle - Dépend pas de la position de visualisation (exacte ou accidentelle) de l'observateur - Jonctions en T - Indiquent occlusion : haut du T est devant et la tige est derrière - Jonctions en Y - Indiquent les coins faisant face à l'observateur - Jonctions fléchées - Indiquent coins opposés à l'observateur - Parties et ensembles - Effet de supériorité globale - Propriétés globales de l'objet (entier) priment sur les propriétés locales (des parties) de l'objet Cinq principes de la vision intermédiaire 1. Rassemblez ce qui devrait être réuni 2. Divisez en deux ce qui devrait être divisé en deux 3. Utilisez ce que vous savez 4. Évitez les accidents 5. Rechercher le consensus et éviter l'ambiguïté a. Système visuel se contente d'une seule représentation à la fois **Bases neuronales de la reconnaissance des objets** [Reconnaissance de l'objet] - Imagerie fonctionnelle aide à identifier les régions du cerveau qui répondent mieux à certains stimuli - Méthode de soustraction (classique) - Méthode univariée - Comparaison de l'activité cérébrale mesurée dans deux conditions - Différence entre images peut montrer régions cérébrales spécifiquement activées par un processus mental. - Méthode de décodage - Scan IRMf d'un participant qui regarde différentes images de différentes catégories - Entraîner un modèle informatique pour reconnaître l'activité cérébrale de chaque catégorie - Tester le modèle pour voir s'il peut identifier une image non entraînée en fonction de ce qu'il a appris [Théorie des voies ventrales et dorsales] - Après cortex extrastrié : *What* VS *Where* - Where (dorsal) - Emplacements et formes des objets - What (ventral) - Noms et fonction des objets ![](media/image41.png) - Cerveau utilise *feedfoward* et *feedback* pour tirer conclusions précises de la perception - De V1 à IT : neurones répondent à des stimuli de plus en plus complexes - V4 : Cellules qui répondent aux stimuli comme les fans, spirales et moulinets - Difficile de savoir exactement ce à quoi les cellules de V4 répondent, mais c'est plus compliqué que taches ou barres ![](media/image44.png) [Aires spécifiques] [Débat local VS distribué] - Nancy Kanwisher PPA - Ses travaux ont mené à découverte PPA aussi - Soutient local - James Haxby - Modèle distribué - Info traitée par régions cérébrales interconnectées comme hIT (humain Inferior Temporal cortex) - Impliqué dans reconnaissance d'objets de manière plus générale - Malgré absence FFA, arrive à comprendre que sitmuli présenté est un visage - Va à l'encontre de ce que Nancy Kanwisher soutient - Débat similaire pour *what* and *where* - Cortex inférotemporal - Propriétés du champ récepteur des neurones de hIT - Très grands : certains couvrent moitié du champ visuel - Ne répondent pas bien aux taches ou aux lignes - Répondent bien aux stimuli comme mains, visages, objets - Partie du cortex cérébral dans la partie inférieure du lobe temporal - Importante pour la reconnaissance d'objets - Une partie de la voie « quoi » - Lorsque lésé agnosies - Incapacité à reconnaître des objets malgré capacité à les voir - Reconnaissance d'objets rapide - Aussi peu que 150ms - Si court que peut pas avoir de rétroaction des zones cérébrales ultérieures - Processus *feedfoward * - Effectue un calcul (ex : reconnaissance d'objet) une étape neuronale après l'autre - Pas besoin de rétroaction d'une étape ultérieure ou antérieure - Lésion en neuropsychologie - Peuvent mener à agnosie ou perte de compréhension de concepts liés à la sémantique - Région du cerveau endommagé (n.) - Détruire une partie du cerveau (v.) - Agnosie et diagnostique ![](media/image46.png) **Retour au paradoxe de la perception** - Si le monde est tel que nous le percevons, alors cerveau aussi OR 50% de la lumière visible ambiante traverse le médium oculaire 20% traverse cellules de la rétine Moins de 1% de l'info dans récepteurs rétiniens sort des cellules ganglionnaires 40% de l'info qui arrive dans LGN le quitte pour V1 DONC Moins de 0,04% de l'info dans la lumière visible parvient au cortex extrastrié... Le monde n'est pas tel que nous le percevons Le monde est dans une large mesure à l'intérieur de notre cerveau... [Solution au pseudo-paradoxe de la perception]

Use Quizgecko on...
Browser
Browser