Des travaux en relation avec la formalisation du raisonnement et de la décision ou la conception de machines présentant de l’autonomie ont débuté longtemps avant la “création” de l’intelligence artificielle. Cette histoire, qu’il serait trop long de conter ici, passe en particulier par les noms d’Aristote, de Ramon Llull, de Gottfried Leibniz, de Thomas Bayes, de Georges Boole, ou d’Augustus De Morgan.
L’acte de naissance de l’Intelligence Artificielle (IA) correspond à un programme de rencontres organisées à Dartmouth College (Hanover, New Hampshire, USA) ayant réuni une dizaine de personnes pendant l’été 1956, à l’initiative de deux jeunes chercheurs qui, dans des registres différents, allaient fortement marquer le développement de la discipline : John McCarthy et Marvin Minsky, le premier défendant une vision purement logiquela logique, qui apparaît dans la Grèce Antique avec l’étude des syllogismes, s’intéresse à la formalisation du raisonnement. La lo- gique moderne, qui se développe à partir du XIXe siècle, a conduit à la formalisation d’un véritable calcul déductif à partir de formules logiques formées... More* de la représentation des connaissances, le second travaillant alors sur les neurones* formels et les perceptrons*, et qui privilégierait plus tard l’usage de représentations structurées (appelées en anglais “ frames”) de stéréotypes de situations pouvant inclure différents types d’information. C’est à cette occasion que l’expression “Artificial Intelligence” (choisie par McCarthy) fut utilisée pour la première fois de manière systématique pour désigner le nouveau champ de recherche; elle était cependant loin de faire l’unanimité parmi les chercheurs présents, certains ne voyant là que du traitement complexe d’informations. Cette initiative avait bénéficié du soutien de deux autres chercheurs déjà reconnus, Claude Shannon, père de la théorie de l’information et du calcul binaire sur machines, et Nathaniel Rochester, concepteur du premier ordinateur commercial. D’autres participants à ces rencontres,
Alan Newell et Herbert Simon, allaient aussi avoir un impact particulièrement important sur le développement de l’intelligence artificielle, ainsi que Ray Solomonoff et Oliver Selfridge en apprentissage et en reconnaissance des formes.
Les rencontres de Dartmouth étaient le résultat d’une effervescence qui avait débuté un peu avant 1950 autour de questions liées à la possibilité de construire des “machines à penser”, voire des “machines pensantes” (“thinking machines”), et à la comparaison du fonctionnement du cerveau humain avec les premiers ordinateurs qui venaient d’apparaître (et qui étaient essentiellement tournés vers le calcul numérique). La naissance de l’intelligence artificielle a été ainsi plus ou moins directement influencée par différents travaux, notamment ceux de Warren McCulloch et Walter Pitts qui, inspirés par la neurophysiologie, proposaient les tout premiers modèles de réseaux de neurones artificiels, ceux de Norbert Wiener sur la cybernétique (science centrée sur l’étude des mécanismes de communication et de contrôle des machines et des êtres vivants), ceux de Claude Shannon en théorie de l’information, ceux de John von Neumann sur l’architecture des calculateurs, et ceux d’Alan Turing sur les fonctions calculables par machine.
C’est aussi en 1956 que Alan Newell et Herbert Simon (en collaboration avec John Cliff Shaw), proposent un premier programme d’ordinateur capable de démontrer des théorèmes en logiquela logique, qui apparaît dans la Grèce Antique avec l’étude des syllogismes, s’intéresse à la formalisation du raisonnement. La lo- gique moderne, qui se développe à partir du XIXe siècle, a conduit à la formalisation d’un véritable calcul déductif à partir de formules logiques formées... More, avant de bientôt présenter un “résolveur de problème général” (“General Problem Solver”), basé sur l’évaluation de la différence entre la situation à laquelle le résolveur est arrivé et le but qu’il doit atteindre.
L’intelligence artificielle s’intéresse dès ses débuts au développement de programmes capables de jouer aux échecs (Claude Shannon aborde le problème dans plusieurs articles dès 1950). Les premiers programmes, notamment ceux de Arthur Samuel et Alex Bernstein, apparaissent au début des années 60, et au fil des décennies arrivent à battre des joueurs de niveaux de plus en plus élevés. La recherche des années 1970 dans
ce domaine est marquée par l’idée de doter la machine de capacités de mise en œuvre de stratégies sophistiquées évoluant dynamiquement avec le jeu (comme dans les travaux de Hans Berliner). C’est cependant d’abord la puissance calculatoire de l’ordinateur, capable d’explorer de gigantesques espaces combinatoires, qui viendra à bout du champion du monde de la discipline (victoire de l’ordinateur Deep Blue sur Gary Kasparov, en 1997).
Parmi les travaux variés qui marquèrent les débuts de l’intelligence artificielle, mentionnons encore le programme de Thomas Evans (1963) capable, comme dans un test d’intelligence, de trouver par analogie la quatrième figure géométrique complétant une série de trois (ce qui nécessitait aussi une représentation conceptuelle des figures), ou les systèmes propageant des contraintesune contrainte exprime des restrictions que l’on souhaite imposer sur des éléments d’un problème. Par exemple, il est possible d’imposer pour un logement que la surface d’une chambre soit d’au moins 12 m2 (qui se traduira ici par une inégalité mathématique largeur x longueur ≥... More*, comme dans l’approche de David Waltz (1975) pour interpréter dans une image les arêtes de solides et leurs positions relatives, qui devaient s’étendre par la suite à beaucoup d’autres domaines où la résolution par contraintesune contrainte exprime des restrictions que l’on souhaite imposer sur des éléments d’un problème. Par exemple, il est possible d’imposer pour un logement que la surface d’une chambre soit d’au moins 12 m2 (qui se traduira ici par une inégalité mathématique largeur x longueur ≥... More s’impose naturellement.
Le traitement de textes ou de dialogues en langage naturel tant au plan de leur compréhension, qu’au plan de leur production automatique, a préoccupé également l’intelligence artificielle très tôt. Le système ELIZA (de Joseph Weizenbaum) était capable, dès 1965, de dialoguer, à l’écrit, en langage naturel en trompant un moment des interlocuteurs humains qui croyaient avoir affaire à un autre humain! Pourtant ELIZA ne construisait aucune représentation des phrases du dialogue et donc n’en détenait aucune compréhension: il repérait des expressions clés dans des phrases et reconstruisait des phrases toutes faites. C’est sans doute le système SHRDLU de Terry Winograd qui, en 1971, fut le premier à construire de telles représentations et à les exploiter dans des dialogues qui portaient, dans un monde simplifié, sur les positions relatives de blocs de différentes formes, tailles, et couleurs.
Les années 1970 et le début des années 1980 sont marquées par la réalisation de nombreux systèmes experts (DENDRAL en chimie, MYCIN en médecine, HEARSAY-II en compréhension de la parole, PROSPECTOR en géologie). Ces systèmes modélisent la connaissancedans l’acception spécifique de ce mot, les connaissances ont en principe un caractère générique, souvent sous forme de règles (par exemple, « les hommes sont mortels », « les oiseaux volent »...). Elles sont en général recueillies auprès d’experts (voir aussi ontologies*), ou obtenues à... More d’experts dans un domaine spécialisé sous forme de règles “si… alors…”. En appliquant ces règles sur un ensemble de faits décrivant une situation particulière, le système peut produire certaines conclusions, pour établir un diagnostic ou faire une prédiction par exemple.
Les années 1970 ont été aussi l’occasion des premières expérimentations avec des robots mobiles (comme par exemple le robot Shakey du SRI à Menlo Park en Californie), qui posaient conjointement des problèmes de vision par ordinateur, de représentation des connaissances, et de planification d’activités et de trajectoires. Une dizaine d’années plus tard, Rodney Brooks, au MIT, s’intéressera à des sociétés de robots réactifs à leur environnement immédiat, mais agissant sans représentation construite du monde dans lequel ils évoluent.
Les années 1980 sont marquées par le développement de la programmation logiquela logique, qui apparaît dans la Grèce Antique avec l’étude des syllogismes, s’intéresse à la formalisation du raisonnement. La lo- gique moderne, qui se développe à partir du XIXe siècle, a conduit à la formalisation d’un véritable calcul déductif à partir de formules logiques formées... More (avec le développement du langage PROLOGlangage de programmation (créé à Marseille en 1972 par Alain Colmerauer et Philippe Roussel) basé sur la logique* du premier ordre. PROLOG est un langage déclaratif, c’est-à-dire que, idéalement, l’utilisateur n’a qu’à décrire le problème, sans se soucier de sa méthode de résolution (contrairement à... More*), à la base du projet japonais d’ordinateurs de 5e génération, et de la résolution symbolique de problèmes (avec les langages PROLOGlangage de programmation (créé à Marseille en 1972 par Alain Colmerauer et Philippe Roussel) basé sur la logique* du premier ordre. PROLOG est un langage déclaratif, c’est-à-dire que, idéalement, l’utilisateur n’a qu’à décrire le problème, sans se soucier de sa méthode de résolution (contrairement à... More et LISP).
Les années 1990 voient l’avènement des réseaux bayésiens*, et plus généralement la modélisationmodéliser un problème d’intelligence artificielle consiste à en formuler un énoncé dans un langage (dit langage de modélisation) donné. Ce langage peut s’appuyer sur des formalismes logiques*, algébriques ou même graphiques. Un même problème peut donc être modélisé de diverses manières (selon le langage de... More en termes de probabilitésla théorie des probabilités, formalisée à partir du XVIIe siècle, est le plus ancien cadre de modélisation* de l’incertain et reste le plus utilisé. Les probabilités ont dès le départ un caractère dual, se référant soit à des fréquences d’événements (obtenues par statistiques), soit à... More de l’incertain, à la suite des travaux pionniers de Judea Pearl, qui ont permis de développer une algorithmique efficace et bien fondée pour traiter ce type de représentation des connaissances*. Dans ces mêmes années les systèmes de règles floues, basés sur la logique flouenom générique de méthodes de raisonnement utilisant la théorie des ensembles flous*, permettant notamment l’interpolation. Désigne aussi plus spécifiquement des logiques multi-valuées* avec des valeurs de vérité intermédiaires entre le vrai et le faux.... More* de Lotfi Zadeh, trouvent de nombreuses applications, notamment dans le pilotage automatique de processus mécaniques.
Dans les années 2000, le développement du web et des bases de donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More induisent une disponibilité grandissante des donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More*, ce qui conduit au développement de méthodes de fouille de donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More (“data mining” en anglais), qui visent à la découverte de connaissances à partir de grandes
masses de donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More. On peut également mentionner l’essor des systèmes multi-agents*, intégrant notamment des modélisations venant de la théorie de la décision, de la théorie des jeuxthéorie mathématique modélisant les interactions stratégiques entre un certain nombre d’agents (individus, organisations, robots, etc.), permettant de trouver les comportements optimaux, afin par exemple de tenter d’expliquer ou de prédire le comportement des agents. Les notions de solution en théorie des jeux, notamment la notion... More, de l’argumentation, etc.
Ces dernières décennies, l’intelligence artificielle s’est développée dans de multiples directions, en étudiant les fondements théoriques de la représentation de l’information et de la déduction logiquela logique, qui apparaît dans la Grèce Antique avec l’étude des syllogismes, s’intéresse à la formalisation du raisonnement. La lo- gique moderne, qui se développe à partir du XIXe siècle, a conduit à la formalisation d’un véritable calcul déductif à partir de formules logiques formées... More, en faisant progresser les algorithmes de résolution de problèmes (tels que les problèmes de satisfaction de contraintesune contrainte exprime des restrictions que l’on souhaite imposer sur des éléments d’un problème. Par exemple, il est possible d’imposer pour un logement que la surface d’une chambre soit d’au moins 12 m2 (qui se traduira ici par une inégalité mathématique largeur x longueur ≥... More, par exemple), et en obtenant des résultats spectaculaires en apprentissage. De fait, l’intelligence artificielle et ses applications ont connu depuis le milieu des années 2010 un regain considérable d’intérêt scientifique et médiatique, tiré, pour beaucoup, par les succès de l’apprentissage automatique, et en particulier des réseaux de neurones profonds*.
Les réseaux de neurones* ont été longtemps négligés à cause des limitations des perceptrons et des problèmes calculatoires posés par les réseaux de neurones plus généraux. Un regain d’intérêt a eu lieu dans les années 1980-1990 avec les travaux notamment de Yann Le Cun, Yoshua Bengio, Geoffrey Hinton et David Rumelhart sur l’algorithme de rétropropagation du gradientméthode statistique utilisée pour calculer le gradient de l’erreur pour chaque neurone* d’un réseau de neurones*, de la dernière couche vers la première. Le gradient d’une fonction de plusieurs variables en un certain point est un vecteur qui caractérise la variabilité de cette fonction au... More* et les réseaux convolutifs*, qui ont permis la mise en œuvre et l’amélioration des performances de ces réseaux. Mais la résurgence actuelle des réseaux de neurones a été surtout permise par l’augmentation des capacités de calcul des ordinateurs (avec à présent des processeurs dédiés à ces calculs) et la disponibilité massive des donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More nécessaires à ces algorithmes d’apprentissage profondapprentissage d’un réseau de neurones* comportant de nombreuses couches, réalisé en calculant le gradient de l’erreur (la dérivée de l’erreur par rapport aux poids) en sortie du réseau de neurones* et en modifiant les poids du réseau proportionnellement au gradient.... More. Ces derniers sont devenus incontournables pour les tâches de perception, et sont à présent à la base des méthodes les plus performantes de traitement d’images et du langage naturel.
Comme beaucoup de disciplines scientifiques ayant des retombées technologiques susceptibles d’être médiatisées, l’intelligence artificielle a connu une alternance d’époques d’engouement (et de soutien des agences de financement) à l’occasion d’avancées remarquables, et d’époques de dédain et de vaches maigres (les “hivers de l’IA”).
Comme le montre ce bref aperçu historique (Pour plus de détails sur l’histoire de l’intelligence artificielle voir le chapitre de Pierre Marquis, Odile Papini et Henri Prade. Éléments pour une histoire de l’intelligence artificielle, dans le Panorama de l’Intelligence Artificielle. Vol. 1, Cépaduès, pp. 1-39. 2014.), l’intelligence artificielle s’est largement développée d’abord aux États-Unis avant d’intéresser des chercheurs en Europe puis en Asie à partir du milieu des années 1970. Pour ce qui est de la France, si on excepte des pionniers de la cybernétique (Louis Couffignal, Paul Braffort), et si l’on ne s’en tient qu’à des recherches se réclamant explicitement de l’intelligence artificielle, les premières équipes françaises dans ce domaine furent créées à Paris, puis à Marseille sous les impulsions respectives de Jacques Pitrat (qui a en particulier mis en lumière le rôle des métaconnaissancesconnaissances sur des connaissances et leur bon usage. Elles s’expriment souvent par des règles indiquant quelles connaissances utiliser dans des situations données, permettant ainsi de faciliter la résolution de problèmes.... More* dans les processus de résolution de problèmes et d’apprentissage), et d’Alain Colmerauer (père d’un langage de programmation, PROLOGlangage de programmation (créé à Marseille en 1972 par Alain Colmerauer et Philippe Roussel) basé sur la logique* du premier ordre. PROLOG est un langage déclaratif, c’est-à-dire que, idéalement, l’utilisateur n’a qu’à décrire le problème, sans se soucier de sa méthode de résolution (contrairement à... More, basé sur la logiquela logique, qui apparaît dans la Grèce Antique avec l’étude des syllogismes, s’intéresse à la formalisation du raisonnement. La lo- gique moderne, qui se développe à partir du XIXe siècle, a conduit à la formalisation d’un véritable calcul déductif à partir de formules logiques formées... More et qui a marqué l’intelligence artificielle).
Des équipes d’intelligence artificielle devaient ensuite bientôt naître progressivement dans d’autres grands centres: Toulouse, Grenoble, Nancy, Rennes, Montpellier, Lens… Aujourd’hui, presque tous les laboratoires d’informatique comptent des chercheurs en intelligence artificielle.