Soutenance de la thèse de Victor Boutin (Equipe NeOpTo )

13 mars 2020

Sparse deep predictive coding : a bio-inspired model of visual perception

Etude d’un algorithme hiérarchique et codage épars de prédictif : vers un modèle bio-inspiré de la perception visuelle

Vendredi 13 mars à 14h

Lieu : salle henri gastaut, INT


Jury :

  • Ryad Benosman, Université Pierre et Marie Curie, Rapporteur
  • Simon Thorpe, CNRS, Rapporteur
  • Sandrine Anthoine, CNRS, Examinateur
  • Yves Fregnac, CNRS, Examinateur
  • Sid Kouider, CNRS, Examinateur
  • Laurent Perrinet, CNRS, Directeur de thèse
  • Franck Ruffier, CNRS, Co-directeur de thèse
  • Mossadek Talby, AMU, Jury invité

Abstract : Building models to efficiently represent images is a central and difficult problem in the machine learning community. The neuroscientific study of the early visual cortical areas is a great source of inspiration to find economical and robust solutions. For instance, Sparse Coding (SC) is one of the most successful frameworks to model neural computation at the local scale in the visual cortex. It directly derives from the efficient coding hypothesis and could be thought of as a competitive mechanism that describes visual stimulus using the activity of a small fraction of neurons. At the structural scale of the ventral visual pathways, feedforward models of vision have accounted for neurophysiological evidence and provide the most successful frameworks for object recognition tasks. Nevertheless, these models do not leverage the high density of feedback and lateral interactions observed in the visual cortex. In particular, these connections are known to integrate contextual and attentional modulations to feedforward signals. The Predictive Coding (PC) theory has been proposed to model top-down and bottom-up interaction between cortical regions. The presented thesis introduces a model combining Sparse Coding and Predictive Coding in a hierarchical and convolutional architecture. Our model, called Sparse Deep Predictive Coding (SDPC), was trained on several different databases including faces and natural images. We analyze the SPDC from a computational and a biological perspective. In terms of computation, the recurrent connectivity introduced by the PC framework allows the SDPC to converge to lower prediction errors with a higher convergence rate. In addition, we combine neuroscientific evidence with machine learning methods to analyze the impact of recurrent processing at both the neural organization and representational level. At the neural organization level, the feedback signal of the model accounted for a reorganization of the V1 association fields that promotes contour integration. At the representational level, the SDPC exhibited significant denoising ability which is highly correlated with the strength of the feedback from V2 to V1. These results from the SDPC model demonstrate that neuro-inspiration might be the right methodology to design more powerful and more robust computer vision algorithms.

Résumé : La représentation concise et efficace de l’information est un problème qui occupe une place centrale dans l’apprentissage machine. Le cerveau, et plus particulièrement le cortex visuel, ont depuis longtemps trouvé des solutions performantes et robustes afin de résoudre un tel problème. A l’échelle locale, le codage épars est l’un des mécanismes les plus prometteurs pour modéliser le traitement de l’information au sein des populations de neurones dans le cortex visuel. Le codage épars introduit une compétition entre les neurones afin de décrire un stimulus visuel en limitant le nombre de neurones actifs. A l’échelle structurelle, les modèles dits ascendants décrivent le cortex visuel comme une succession d’unités de traitement dans lesquelles l’information se propage de la rétine vers les couches profondes du cortex. Ces modèles ont expliqué avec succès un grand nombre de phénomènes neuro-physiologiques et ont servi d’inspiration afin de construire des algorithmes de reconnaissance d’objets extrêmement performants. Néanmoins, les modèles ascendants n’expliquent pas le grand nombre de connections récurrentes et descendantes que l’on trouve dans le cortex visuel. Ces connections sont connues pour moduler l’activité des neurones en incluant des details contextuels au flux d’information ascendant. La théorie du codage prédictif a été suggérée pour modéliser les connections ascendantes, récurrentes, et descendantes que l’on retrouve entre les différentes régions corticales. Cette thèse propose de combiner codage épars et codage prédictif au sein d’un modèle hiérarchique et convolutif. Nous avons entrainé ce modèle sur différentes bases de données afin de l’analyser avec une perspective à la fois computationnelle et biologique. D’un point de vue computationnel, nous démontrons que les connections descendantes, introduites par le codage prédictif, permettent une convergence meilleure et plus rapide du modèle. De plus, nous analysons les effets des connections descendantes sur l’organisation des populations de neurones, ainsi que leurs conséquences sur la manière dont notre algorithme se représente les images. Nous montrons que les connections descendantes réorganisent les champs d’association de neurones dans V1 afin de permettre une meilleure intégration des contours. En outre, nous observons que ces connections permettent une meilleure reconstruction des images bruitées. Nos résultats suggèrent que l’inspiration des neurosciences fournit un cadre prometteur afin de développer des algorithmes de vision artificielles plus performants et plus robustes.

CNRS logo université Aix Marseille logo | plan du site | mentions légales | contact | admin | intranet | intcloud |