Press "Enter" to skip to content

3.1. Vision et traitement d’images

Le domaine de la vision par ordinateur s’intéresse à la compréhension des contenus visuels, tels que les images et séquences vidéo issues de supports divers: caméras embarquées dans les téléphones, robots ou voitures intelligentes, contenus multimédias (films et journaux télévisés), documents numériques, imagerie médicale etc. Les problèmes étudiés sont divers, allant de la simple classification d’images et de la reconnaissance d’objets, de gestes et d’activités humaines, à la prédiction structurée et la compréhension détaillée d’une scène : identification de l’ensemble des acteurs d’une scène, estimation de leur posture, des relations entre les acteurs et éventuellement les objets de la scène, labellisation de l’ensemble des éléments de la scène; pour certaines applications, la reconstruction d’un modèle 3D de la scène est nécessaire.

Le verrou scientifique principal est le fossé sémantique entre, d’un côté, le signal d’entrée, dit de bas niveau, et de l’autre côté, la prédiction sémantique, par exemple la classe d’objets à reconnaître. Mathématiquement, cela se caractérise par des espaces de grandes dimensions dans lesquels sont plongées les images, et par les problèmes d’estimation sous-jacents. À titre d’exemple on peut citer l’estimation des coordonnées des articulations des personnes dans une image pour une application d’interaction homme-machine.

Dans ce contexte, les méthodologies dominantes ont traditionnellement été la géométrie, le traitement de signal et l’apprentissage automatique. Les approches procèdent en combinant une modélisation* explicite de certains phénomènes, et l’apprentissage à partir de données* d’autres parties du modèle. En revanche, ce compromis a été récemment modifié en faveur de l’apprentissage. L’apprentissage à partir de grandes masses de données a été une force motrice majeure de l’évolution du domaine depuis quelques années, et également d’autres domaines tels que la reconnaissance de la parole et le traitement automatique des langues, avec un impact important à la fois sur le monde académique et sur le monde industriel. Les méthodes de type apprentissage profond* se sont établies comme méthodes de référence pour un grand nombre de problèmes en gagnant les plus prestigieuses compétitions scientifiques, l’événement clé étant la victoire de la campagne “ImageNet 2012” par l’équipe de Geoffrey Hinton** de l’Université de Toronto.

Conceptuellement, ces modèles permettent d’apprendre, de manière conjointe, une représentation hiérarchique d’un objet ou d’une action, et le modèle de prédiction servant à sa reconnaissance.

La conception “manuelle” de traits caractéristiques (descripteurs nécessaires pour l’identification des objets) par un expert, chercheur ou ingénieur, a été réduite à un rôle minimal par rapport aux méthodes traditionnelles d’apprentissage. L’intervention du spécialiste a basculé de la conception des caractéristiques vers le choix du biais inductif du modèle d’apprentissage, par exemple l’architecture d’un réseau de neurones profond*.

Suite au succès de l’apprentissage automatique, une certaine convergence de modèles a eu lieu entre les domaines de la vision par ordinateur, le traitement de la parole et le traitement des langues. Les communautés se sont rapprochées, ce dont témoigne un partage de concepts, de modèles, d’algorithmes et même des applications impliquant plusieurs domaines, tels que les systèmes de question-réponse visuels. D’autres liens ont été tissés avec les neurosciences, dont certains résultats ont trouvé une place importante dans le domaine de la vision. À titre d’exemple on peut citer la notion de modèle d’attention, permettant à un modèle (neuronal) de porter une attention particulière à une partie spécifique des données, qui a été déterminée, par le modèle, comme pertinente par rapport à la tâche en question.

Les recherches des dernières années ont démontré la capacité des réseaux de neurones profonds à apprendre des modèles complexes et efficaces à partir de grandes masses de données. Pour certaines applications, telles que la détection et la reconnaissance d’objets et l’estimation de la posture articulée des humains, le succès est indéniable, avec des transferts technologiques mis en place par les grands groupes industriels. Pour d’autres applications, il a été démontré que le succès de cette méthodologie n’est pas forcément dû à une capacité acquise de raisonner, mais plutôt dû à l’exploitation statistique de certaines régu- larités et de biais inhérents aux jeux de données, ce qui représente un frein important à leur capacité de généralisation. L’avenir du domaine portera sans doute sur une augmentation des capacités de raisonnement de haut niveau et sur l’intégration de notions de causalité.

** Imagenet classification with deep convolutional neural networks. Alex Krizhevsky, Ilya Sutske- ver et Geoffrey Hinton. Dans Neural Information Processing Systems (NIPS), pp. 1097-1105. 2012.