Press "Enter" to skip to content

1. L’IA : ambitions et histoire

Des travaux en relation avec la formalisation du raisonnement et de la décision ou la conception de machines présentant de l’autonomie ont débuté longtemps avant la “création” de l’intelligence artificielle. Cette histoire, qu’il serait trop long de conter ici, passe en particulier par les noms d’Aristote, de Ramon Llull, de Gottfried Leibniz, de Thomas Bayes, de Georges Boole, ou d’Augustus De Morgan.

L’acte de naissance de l’Intelligence Artificielle (IA) correspond à un programme de rencontres organisées à Dartmouth College (Hanover, New Hampshire, USA) ayant réuni une dizaine de personnes pendant l’été 1956, à l’initiative de deux jeunes chercheurs qui, dans des registres différents, allaient fortement marquer le développement de la discipline : John McCarthy et Marvin Minsky, le premier défendant une vision purement logique* de la représentation des connaissances, le second travaillant alors sur les neurones* formels et les perceptrons*, et qui privilégierait plus tard l’usage de représentations structurées (appelées en anglais “ frames”) de stéréotypes de situations pouvant inclure différents types d’information. C’est à cette occasion que l’expression “Artificial Intelligence” (choisie par McCarthy) fut utilisée pour la première fois de manière systématique pour désigner le nouveau champ de recherche; elle était cependant loin de faire l’unanimité parmi les chercheurs présents, certains ne voyant là que du traitement complexe d’informations. Cette initiative avait bénéficié du soutien de deux autres chercheurs déjà reconnus, Claude Shannon, père de la théorie de l’information et du calcul binaire sur machines, et Nathaniel Rochester, concepteur du premier ordinateur commercial. D’autres participants à ces rencontres,

Alan Newell et Herbert Simon, allaient aussi avoir un impact particulièrement important sur le développement de l’intelligence artificielle, ainsi que Ray Solomonoff et Oliver Selfridge en apprentissage et en reconnaissance des formes.

Les rencontres de Dartmouth étaient le résultat d’une effervescence qui avait débuté un peu avant 1950 autour de questions liées à la possibilité de construire des “machines à penser”, voire des “machines pensantes” (“thinking machines”), et à la comparaison du fonctionnement du cerveau humain avec les premiers ordinateurs qui venaient d’apparaître (et qui étaient essentiellement tournés vers le calcul numérique). La naissance de l’intelligence artificielle a été ainsi plus ou moins directement influencée par différents travaux, notamment ceux de Warren McCulloch et Walter Pitts qui, inspirés par la neurophysiologie, proposaient les tout premiers modèles de réseaux de neurones artificiels, ceux de Norbert Wiener sur la cybernétique (science centrée sur l’étude des mécanismes de communication et de contrôle des machines et des êtres vivants), ceux de Claude Shannon en théorie de l’information, ceux de John von Neumann sur l’architecture des calculateurs, et ceux d’Alan Turing sur les fonctions calculables par machine.

C’est aussi en 1956 que Alan Newell et Herbert Simon (en collaboration avec John Cliff Shaw), proposent un premier programme d’ordinateur capable de démontrer des théorèmes en logique, avant de bientôt présenter un “résolveur de problème général” (“General Problem Solver”), basé sur l’évaluation de la différence entre la situation à laquelle le résolveur est arrivé et le but qu’il doit atteindre.

L’intelligence artificielle s’intéresse dès ses débuts au développement de programmes capables de jouer aux échecs (Claude Shannon aborde le problème dans plusieurs articles dès 1950). Les premiers programmes, notamment ceux de Arthur Samuel et Alex Bernstein, apparaissent au début des années 60, et au fil des décennies arrivent à battre des joueurs de niveaux de plus en plus élevés. La recherche des années 1970 dans

ce domaine est marquée par l’idée de doter la machine de capacités de mise en œuvre de stratégies sophistiquées évoluant dynamiquement avec le jeu (comme dans les travaux de Hans Berliner). C’est cependant d’abord la puissance calculatoire de l’ordinateur, capable d’explorer de gigantesques espaces combinatoires, qui viendra à bout du champion du monde de la discipline (victoire de l’ordinateur Deep Blue sur Gary Kasparov, en 1997).

Parmi les travaux variés qui marquèrent les débuts de l’intelligence artificielle, mentionnons encore le programme de Thomas Evans (1963) capable, comme dans un test d’intelligence, de trouver par analogie la quatrième figure géométrique complétant une série de trois (ce qui nécessitait aussi une représentation conceptuelle des figures), ou les systèmes propageant des contraintes*, comme dans l’approche de David Waltz (1975) pour interpréter dans une image les arêtes de solides et leurs positions relatives, qui devaient s’étendre par la suite à beaucoup d’autres domaines où la résolution par contraintes s’impose naturellement.

Le traitement de textes ou de dialogues en langage naturel tant au plan de leur compréhension, qu’au plan de leur production automatique, a préoccupé également l’intelligence artificielle très tôt. Le système ELIZA (de Joseph Weizenbaum) était capable, dès 1965, de dialoguer, à l’écrit, en langage naturel en trompant un moment des interlocuteurs humains qui croyaient avoir affaire à un autre humain! Pourtant ELIZA ne construisait aucune représentation des phrases du dialogue et donc n’en détenait aucune compréhension: il repérait des expressions clés dans des phrases et reconstruisait des phrases toutes faites. C’est sans doute le système SHRDLU de Terry Winograd qui, en 1971, fut le premier à construire de telles représentations et à les exploiter dans des dialogues qui portaient, dans un monde simplifié, sur les positions relatives de blocs de différentes formes, tailles, et couleurs.

Les années 1970 et le début des années 1980 sont marquées par la réalisation de nombreux systèmes experts (DENDRAL en chimie, MYCIN en médecine, HEARSAY-II en compréhension de la parole, PROSPECTOR en géologie). Ces systèmes modélisent la connaissance d’experts dans un domaine spécialisé sous forme de règles “si… alors…”. En appliquant ces règles sur un ensemble de faits décrivant une situation particulière, le système peut produire certaines conclusions, pour établir un diagnostic ou faire une prédiction par exemple.

Les années 1970 ont été aussi l’occasion des premières expérimentations avec des robots mobiles (comme par exemple le robot Shakey du SRI à Menlo Park en Californie), qui posaient conjointement des problèmes de vision par ordinateur, de représentation des connaissances, et de planification d’activités et de trajectoires. Une dizaine d’années plus tard, Rodney Brooks, au MIT, s’intéressera à des sociétés de robots réactifs à leur environnement immédiat, mais agissant sans représentation construite du monde dans lequel ils évoluent.

Les années 1980 sont marquées par le développement de la programmation logique (avec le développement du langage PROLOG*), à la base du projet japonais d’ordinateurs de 5e génération, et de la résolution symbolique de problèmes (avec les langages PROLOG et LISP).

Les années 1990 voient l’avènement des réseaux bayésiens*, et plus généralement la modélisation en termes de probabilités de l’incertain, à la suite des travaux pionniers de Judea Pearl, qui ont permis de développer une algorithmique efficace et bien fondée pour traiter ce type de représentation des connaissances*. Dans ces mêmes années les systèmes de règles floues, basés sur la logique floue* de Lotfi Zadeh, trouvent de nombreuses applications, notamment dans le pilotage automatique de processus mécaniques.

Dans les années 2000, le développement du web et des bases de données induisent une disponibilité grandissante des données*, ce qui conduit au développement de méthodes de fouille de données (“data mining” en anglais), qui visent à la découverte de connaissances à partir de grandes

masses de données. On peut également mentionner l’essor des systèmes multi-agents*, intégrant notamment des modélisations venant de la théorie de la décision, de la théorie des jeux, de l’argumentation, etc.

Ces dernières décennies, l’intelligence artificielle s’est développée dans de multiples directions, en étudiant les fondements théoriques de la représentation de l’information et de la déduction logique, en faisant progresser les algorithmes de résolution de problèmes (tels que les problèmes de satisfaction de contraintes, par exemple), et en obtenant des résultats spectaculaires en apprentissage. De fait, l’intelligence artificielle et ses applications ont connu depuis le milieu des années 2010 un regain considérable d’intérêt scientifique et médiatique, tiré, pour beaucoup, par les succès de l’apprentissage automatique, et en particulier des réseaux de neurones profonds*.

Les réseaux de neurones* ont été longtemps négligés à cause des limitations des perceptrons et des problèmes calculatoires posés par les réseaux de neurones plus généraux. Un regain d’intérêt a eu lieu dans les années 1980-1990 avec les travaux notamment de Yann Le Cun, Yoshua Bengio, Geoffrey Hinton et David Rumelhart sur l’algorithme de rétropropagation du gradient* et les réseaux convolutifs*, qui ont permis la mise en œuvre et l’amélioration des performances de ces réseaux. Mais la résurgence actuelle des réseaux de neurones a été surtout permise par l’augmentation des capacités de calcul des ordinateurs (avec à présent des processeurs dédiés à ces calculs) et la disponibilité massive des données nécessaires à ces algorithmes d’apprentissage profond. Ces derniers sont devenus incontournables pour les tâches de perception, et sont à présent à la base des méthodes les plus performantes de traitement d’images et du langage naturel.

Comme beaucoup de disciplines scientifiques ayant des retombées technologiques susceptibles d’être médiatisées, l’intelligence artificielle a connu une alternance d’époques d’engouement (et de soutien des agences de financement) à l’occasion d’avancées remarquables, et d’époques de dédain et de vaches maigres (les “hivers de l’IA”).

Comme le montre ce bref aperçu historique (Pour plus de détails sur l’histoire de l’intelligence artificielle voir le chapitre de Pierre Marquis, Odile Papini et Henri Prade. Éléments pour une histoire de l’intelligence artificielle, dans le Panorama de l’Intelligence Artificielle. Vol. 1, Cépaduès, pp. 1-39. 2014.), l’intelligence artificielle s’est largement développée d’abord aux États-Unis avant d’intéresser des chercheurs en Europe puis en Asie à partir du milieu des années 1970. Pour ce qui est de la France, si on excepte des pionniers de la cybernétique (Louis Couffignal, Paul Braffort), et si l’on ne s’en tient qu’à des recherches se réclamant explicitement de l’intelligence artificielle, les premières équipes françaises dans ce domaine furent créées à Paris, puis à Marseille sous les impulsions respectives de Jacques Pitrat (qui a en particulier mis en lumière le rôle des métaconnaissances* dans les processus de résolution de problèmes et d’apprentissage), et d’Alain Colmerauer (père d’un langage de programmation, PROLOG, basé sur la logique et qui a marqué l’intelligence artificielle).

Des équipes d’intelligence artificielle devaient ensuite bientôt naître progressivement dans d’autres grands centres: Toulouse, Grenoble, Nancy, Rennes, Montpellier, Lens… Aujourd’hui, presque tous les laboratoires d’informatique comptent des chercheurs en intelligence artificielle.