Le traitement automatique des langues naturelles (TALN) est une discipline de l’informatique et des sciences du langage qui s’intéresse à la modélisationmodéliser un problème d’intelligence artificielle consiste à en formuler un énoncé dans un langage (dit langage de modélisation) donné. Ce langage peut s’appuyer sur des formalismes logiques*, algébriques ou même graphiques. Un même problème peut donc être modélisé de diverses manières (selon le langage de... More* et l’automatisation des processus cognitifs langagiers, que ce soit la compréhension de messages, la lecture de textes, le dialogue, la traduction, l’acquisition de connaissances* à partir de textes, etc. Comme discipline informatique, le TALN conçoit des programmes qui peuvent comprendre ou émuler* la communication avec des humains dans sa diversité et ses usages. Il définit des algorithmes, élabore des outils et des architectures logicielles. L’ensemble de ces traitements repose sur des ressources (lexiques, grammaires, corpus annotés, etc.) dont la constitution est une problématique en soi.
Le TALN est souvent classé comme une sous-thématique de l’intelligence artificielle. Cependant, au vu du nombre important de chercheurs et d’industriels qu’il rassemble et de la spécificité et la complexité(complexité algorithmique) théorie permettant de classer les différents problèmes de calcul selon le niveau de difficulté de leur résolution. Cette théorie est au cœur de l’informatique: en informatique, montrer l’existence d’une solution à un problème donné ne suffit pas, il faut pouvoir la construire en... More du langage naturel, il constitue une discipline scientifique à part entière.
Il partage les principaux paradigmes de l’intelligence artificielle (Représenter, Décider, Apprendre, Résoudre) auxquels il faut ajouter celui de Communiquer. Le TALN occupe une position clé dans les nombreuses situations où informations et connaissances sont produites ou reçues par des humains et de ce fait majoritairement exprimées en langue naturelle.
La langue forme un système complexe de moyens d’expressions où les unités de langues ne peuvent se définir que par leurs relations. L’analyse linguistique définit les unités linguistiques et les opérations qui les relient à d’autres unités. Ce système est représenté à l’aide de modèles linguistiques ou statistiques. Les modèles linguistiques sont fondés sur la logiquela logique, qui apparaît dans la Grèce Antique avec l’étude des syllogismes, s’intéresse à la formalisation du raisonnement. La lo- gique moderne, qui se développe à partir du XIXe siècle, a conduit à la formalisation d’un véritable calcul déductif à partir de formules logiques formées... More*. Ils encodent des expertises sous forme de règles qui permettent de décrire a priori le fonctionnement d’une langue. Ces modèles produisent des analyses d’énoncés à partir desquelles peut être inféré le sens.
Les modèles statistiques sont construits à partir des donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More* langagières brutes ou enrichies avec des descriptions linguistiques. Ces modèles servent à prédire le sens d’un mot en examinant l’ensemble des contextes dans lesquels celui-ci apparaît, mais aussi à fournir l’analyse grammaticale d’une phrase, à déterminer son caractère subjectif, etc.
Autant d’analyses peuvent être menées que de descriptions de phénomènes linguistiques ajoutées aux donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More. Ce sont les modèles statistiques qui sont communément employés depuis les années 1990. Ils sont inférés des donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More langagières par des processus d’apprentissage automatique.
Le TALN et l’apprentissage ont une longue histoire commune. Ainsi le premier système de traduction automatique dans les années 1950 était statistique. Le TALN applique les méthodes d’apprentissage de l’intelligence artificielle, mais définit aussi ses propres méthodes.
Deux types de méthodes existent: celles qui permettent d’approximer un modèle linguistique et celles qui sont dédiées à une tâche particulière. Pour les premières, toutes les méthodes d’apprentissage superviséproblème d’apprentissage où il s’agit d’apprendre une fonction de prédiction ou de classification à partir d’un ensemble d’entraînement constitué d’exemples étiquetés en termes de valeurs de cette fonction (les exemples peuvent être par exemple des descriptions d’objets ou de situations avec leur classe).... More* de l’intelligence artificielle permettant de classer les donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More sont utilisées pour produire des analyses linguistiques. Pour les dernières, les modèles importent peu, seule compte la performance atteinte pour la tâche. L’apparition de méthodes basées sur les réseaux de neurones profonds a permis à nombre de tâches du TALN, comme la traduction ou le résumé automatique, d’effectuer un bond qualitatif. Le TALN définit ses propres architectures neuronales et estime ses modèles neuronaux à l’aide de grands corpus. Par exemple, les modèles neuronaux de traduction automatique sont construits à partir de traductions existantes.
Par ailleurs, les donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More langagières constituent toujours un champ d’expérimentations pour de nombreux modèles statistiques numériques. Ainsi, la conférence française en apprentissage automatique (CAP) organise de manière récurrente des compétitions sur des donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More linguistiques. L’édition de 2018 portait par exemple sur la prédiction du niveau en anglais d’un apprenant en langue étrangère à partir de productions écrites d’apprenants annotées en niveaux.
Les paradigmes “Raisonner”, “Décider” et “Résoudre” sont aussi présents en TALN. Ils sont constamment mobilisés face aux ambiguïtés omniprésentes en analyse automatique. Des modèles de l’intelligence artificielle sont expérimentés pour résoudre des problèmes de compréhension. La compréhension porte sur l’étude de la signification des mots et de leur combinaison afin de créer et d’interpréter des énoncés cohérents. Elle établit ensuite des liens entre les énoncés et leurs contextes textuels et situationnels. Ainsi, les réseaux de préférences conditionnelles adaptés et enrichis servent à identifier les préférences des clients sur des produits en analysant des dialogues. À l’inverse, certains modèles typiques du TALN sont aussi explorés en intelligence artificielle. Le plus connu est celui de l’analogie, illustré par le schéma de phrase “A est à B ce que C est à D”, comme “les électrons sont au noyau atomique ce que les planètes sont au soleil ”.