Le domaine de la vision par ordinateur s’intéresse à la compréhension des contenus visuels, tels que les images et séquences vidéo issues de supports divers: caméras embarquées dans les téléphones, robots ou voitures intelligentes, contenus multimédias (films et journaux télévisés), documents numériques, imagerie médicale etc. Les problèmes étudiés sont divers, allant de la simple classification d’images et de la reconnaissance d’objets, de gestes et d’activités humaines, à la prédiction structurée et la compréhension détaillée d’une scène : identification de l’ensemble des acteurs d’une scène, estimation de leur posture, des relations entre les acteurs et éventuellement les objets de la scène, labellisation de l’ensemble des éléments de la scène; pour certaines applications, la reconstruction d’un modèle 3D de la scène est nécessaire.
Le verrou scientifique principal est le fossé sémantique entre, d’un côté, le signal d’entrée, dit de bas niveau, et de l’autre côté, la prédiction sémantique, par exemple la classe d’objets à reconnaître. Mathématiquement, cela se caractérise par des espaces de grandes dimensions dans lesquels sont plongées les images, et par les problèmes d’estimation sous-jacents. À titre d’exemple on peut citer l’estimation des coordonnées des articulations des personnes dans une image pour une application d’interaction homme-machine.
Dans ce contexte, les méthodologies dominantes ont traditionnellement été la géométrie, le traitement de signal et l’apprentissage automatique. Les approches procèdent en combinant une modélisationmodéliser un problème d’intelligence artificielle consiste à en formuler un énoncé dans un langage (dit langage de modélisation) donné. Ce langage peut s’appuyer sur des formalismes logiques*, algébriques ou même graphiques. Un même problème peut donc être modélisé de diverses manières (selon le langage de... More* explicite de certains phénomènes, et l’apprentissage à partir de donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More* d’autres parties du modèle. En revanche, ce compromis a été récemment modifié en faveur de l’apprentissage. L’apprentissage à partir de grandes masses de donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More a été une force motrice majeure de l’évolution du domaine depuis quelques années, et également d’autres domaines tels que la reconnaissance de la parole et le traitement automatique des langues, avec un impact important à la fois sur le monde académique et sur le monde industriel. Les méthodes de type apprentissage profondapprentissage d’un réseau de neurones* comportant de nombreuses couches, réalisé en calculant le gradient de l’erreur (la dérivée de l’erreur par rapport aux poids) en sortie du réseau de neurones* et en modifiant les poids du réseau proportionnellement au gradient.... More* se sont établies comme méthodes de référence pour un grand nombre de problèmes en gagnant les plus prestigieuses compétitions scientifiques, l’événement clé étant la victoire de la campagne “ImageNet 2012” par l’équipe de Geoffrey Hinton** de l’Université de Toronto.
Conceptuellement, ces modèles permettent d’apprendre, de manière conjointe, une représentation hiérarchique d’un objet ou d’une action, et le modèle de prédiction servant à sa reconnaissance.
La conception “manuelle” de traits caractéristiques (descripteurs nécessaires pour l’identification des objets) par un expert, chercheur ou ingénieur, a été réduite à un rôle minimal par rapport aux méthodes traditionnelles d’apprentissage. L’intervention du spécialiste a basculé de la conception des caractéristiques vers le choix du biais inductif du modèle d’apprentissage, par exemple l’architecture d’un réseau de neurones profondréseau de neurones* comportant de nombreuses couches de neurones*.... More*.
Suite au succès de l’apprentissage automatique, une certaine convergence de modèles a eu lieu entre les domaines de la vision par ordinateur, le traitement de la parole et le traitement des langues. Les communautés se sont rapprochées, ce dont témoigne un partage de concepts, de modèles, d’algorithmes et même des applications impliquant plusieurs domaines, tels que les systèmes de question-réponse visuels. D’autres liens ont été tissés avec les neurosciences, dont certains résultats ont trouvé une place importante dans le domaine de la vision. À titre d’exemple on peut citer la notion de modèle d’attention, permettant à un modèle (neuronal) de porter une attention particulière à une partie spécifique des donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More, qui a été déterminée, par le modèle, comme pertinente par rapport à la tâche en question.
Les recherches des dernières années ont démontré la capacité des réseaux de neurones profonds à apprendre des modèles complexes et efficaces à partir de grandes masses de donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More. Pour certaines applications, telles que la détection et la reconnaissance d’objets et l’estimation de la posture articulée des humains, le succès est indéniable, avec des transferts technologiques mis en place par les grands groupes industriels. Pour d’autres applications, il a été démontré que le succès de cette méthodologie n’est pas forcément dû à une capacité acquise de raisonner, mais plutôt dû à l’exploitation statistique de certaines régu- larités et de biais inhérents aux jeux de donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More, ce qui représente un frein important à leur capacité de généralisation. L’avenir du domaine portera sans doute sur une augmentation des capacités de raisonnement de haut niveau et sur l’intégration de notions de causalité.
** Imagenet classification with deep convolutional neural networks. Alex Krizhevsky, Ilya Sutske- ver et Geoffrey Hinton. Dans Neural Information Processing Systems (NIPS), pp. 1097-1105. 2012.