Press "Enter" to skip to content

3.2. Traitement du langage naturel

Le traitement automatique des langues naturelles (TALN) est une discipline de l’informatique et des sciences du langage qui s’intéresse à la modélisation* et l’automatisation des processus cognitifs langagiers, que ce soit la compréhension de messages, la lecture de textes, le dialogue, la traduction, l’acquisition de connaissances* à partir de textes, etc. Comme discipline informatique, le TALN conçoit des programmes qui peuvent comprendre ou émuler* la communication avec des humains dans sa diversité et ses usages. Il définit des algorithmes, élabore des outils et des architectures logicielles. L’ensemble de ces traitements repose sur des ressources (lexiques, grammaires, corpus annotés, etc.) dont la constitution est une problématique en soi.

Le TALN est souvent classé comme une sous-thématique de l’intelligence artificielle. Cependant, au vu du nombre important de chercheurs et d’industriels qu’il rassemble et de la spécificité et la complexité du langage naturel, il constitue une discipline scientifique à part entière.

Il partage les principaux paradigmes de l’intelligence artificielle (Représenter, Décider, Apprendre, Résoudre) auxquels il faut ajouter celui de Communiquer. Le TALN occupe une position clé dans les nombreuses situations où informations et connaissances sont produites ou reçues par des humains et de ce fait majoritairement exprimées en langue naturelle.

La langue forme un système complexe de moyens d’expressions où les unités de langues ne peuvent se définir que par leurs relations. L’analyse linguistique définit les unités linguistiques et les opérations qui les relient à d’autres unités. Ce système est représenté à l’aide de modèles linguistiques ou statistiques. Les modèles linguistiques sont fondés sur la logique*. Ils encodent des expertises sous forme de règles qui permettent de décrire a priori le fonctionnement d’une langue. Ces modèles produisent des analyses d’énoncés à partir desquelles peut être inféré le sens.

Les modèles statistiques sont construits à partir des données* langagières brutes ou enrichies avec des descriptions linguistiques. Ces modèles servent à prédire le sens d’un mot en examinant l’ensemble des contextes dans lesquels celui-ci apparaît, mais aussi à fournir l’analyse grammaticale d’une phrase, à déterminer son caractère subjectif, etc.

Autant d’analyses peuvent être menées que de descriptions de phénomènes linguistiques ajoutées aux données. Ce sont les modèles statistiques qui sont communément employés depuis les années 1990. Ils sont inférés des données langagières par des processus d’apprentissage automatique.

Le TALN et l’apprentissage ont une longue histoire commune. Ainsi le premier système de traduction automatique dans les années 1950 était statistique. Le TALN applique les méthodes d’apprentissage de l’intelligence artificielle, mais définit aussi ses propres méthodes.

Deux types de méthodes existent: celles qui permettent d’approximer un modèle linguistique et celles qui sont dédiées à une tâche particulière. Pour les premières, toutes les méthodes d’apprentissage supervisé* de l’intelligence artificielle permettant de classer les données sont utilisées pour produire des analyses linguistiques. Pour les dernières, les modèles importent peu, seule compte la performance atteinte pour la tâche. L’apparition de méthodes basées sur les réseaux de neurones profonds a permis à nombre de tâches du TALN, comme la traduction ou le résumé automatique, d’effectuer un bond qualitatif. Le TALN définit ses propres architectures neuronales et estime ses modèles neuronaux à l’aide de grands corpus. Par exemple, les modèles neuronaux de traduction automatique sont construits à partir de traductions existantes.

Par ailleurs, les données langagières constituent toujours un champ d’expérimentations pour de nombreux modèles statistiques numériques. Ainsi, la conférence française en apprentissage automatique (CAP) organise de manière récurrente des compétitions sur des données linguistiques. L’édition de 2018 portait par exemple sur la prédiction du niveau en anglais d’un apprenant en langue étrangère à partir de productions écrites d’apprenants annotées en niveaux.

Les paradigmes “Raisonner”, “Décider” et “Résoudre” sont aussi présents en TALN. Ils sont constamment mobilisés face aux ambiguïtés omniprésentes en analyse automatique. Des modèles de l’intelligence artificielle sont expérimentés pour résoudre des problèmes de compréhension. La compréhension porte sur l’étude de la signification des mots et de leur combinaison afin de créer et d’interpréter des énoncés cohérents. Elle établit ensuite des liens entre les énoncés et leurs contextes textuels et situationnels. Ainsi, les réseaux de préférences conditionnelles adaptés et enrichis servent à identifier les préférences des clients sur des produits en analysant des dialogues. À l’inverse, certains modèles typiques du TALN sont aussi explorés en intelligence artificielle. Le plus connu est celui de l’analogie, illustré par le schéma de phrase “A est à B ce que C est à D”, comme “les électrons sont au noyau atomique ce que les planètes sont au soleil ”.