L’intelligence artificielle a pris, ces dernières années, une place de plus en plus importante dans le domaine de l’interaction humain-machine, conduisant à de nouveaux paradigmes d’interaction. De nombreux travaux de recherche portent sur l’adaptation de l’interaction aux utilisateurs, la prise en compte de leurs individualités, mais aussi de leurs états affectifs, de leurs capacités cognitives et sensori-motrices, de leurs intentions, de leur culture… L’interaction avec la machine doit donc s’adapter dynamiquement aux besoins et états affectifs des utilisateurs, en tant qu’individus ou collectifs, pour améliorer non seulement les performances du système, mais aussi la qualité de leur expérience avec le système (déterminée par leur engagement, leur degré de confiance, d’acceptabilité, etc.). Dans cet objectif, les interactions font maintenant usage de plusieurs modalités telles que la voix, le comportement non verbal, la prosodie, le toucher. Les interactions humain-machine demandent de prendre en compte les signaux multimodaux émis par l’humain, de les reconnaître et de les interpréter (ce que l’humain dit, comment il le dit, ce qu’il fait…), de raisonner et décider quoi répondre, de générer une réponse multimodale, de définir des stratégies d’interaction. Enfin, les interfaces avec une représentation humanoïde (robot physique ou virtuel – souvent appelé agent conversationnel animépersonnage virtuel d’apparence humanoïde muni de capacités autonomes de prise de décision et pouvant communiquer verbalement et non-verbalement.... More*) tendent à se généraliser. Elles doivent être dotées de capacités proches de celles des humains : percevoir, comprendre les intentions et états affectifs de leurs interlocuteurs, raisonner, prendre des décisions, montrer des affects, des intentions, gérer les tours de parole, lier une relation engageante, etc. Elles doivent être tout autant locuteur qu’interlocuteur.
Récemment, il y a eu de réelles avancées aussi bien dans le traitement automatique de la parole, dans la reconnaissance multimodale des émotionsreconnaissance de l’état affectif d’une personne à partir de signaux multimodaux tels que des signaux acoustiques, visuels ou encore physiologiques.... More*, que dans la synthèse de parole expressive, pour citer quelques réussites spectaculaires. L’explosion dans le déploiement des chatbots* illustre ce succès. Cependant, plusieurs défis identifiés par la communauté scientifique sont toujours d’actualité. Ces défis portent sur l’amé
lioration des différents modules nécessaires à la modélisationmodéliser un problème d’intelligence artificielle consiste à en formuler un énoncé dans un langage (dit langage de modélisation) donné. Ce langage peut s’appuyer sur des formalismes logiques*, algébriques ou même graphiques. Un même problème peut donc être modélisé de diverses manières (selon le langage de... More* d’une interaction humain-agent virtuel/physique, mais aussi au passage au monde réel et à une interaction non seulement dyadique, mais pouvant comprendre plusieurs interlocuteurs humains. Les modèles d’interaction humain-machine ne doivent plus rester confinés à un certain domaine de conversation (par exemple, la prise de rendez-vous), type de population (d’une même culture, d’un même environnement socio- émotionnel, d’un même âge…). Ils doivent s’ouvrir à la diversité.
Les agents conversationnels animés doivent acquérir une plus grande autonomie dans leur prise de décision et leur prédiction des intentions de leurs interlocuteurs; ils doivent améliorer leur capacité adaptative (adaptation dynamique de leurs comportements et de leurs décisions aux besoins et aux objectifs des utilisateurs ainsi qu’aux états affectifs et mentaux de ces derniers). Leur capacité dialogique doit dépasser les échanges courts d’une simple interaction de type question/réponse (type chatbotlogiciel capable de dialoguer avec un humain. Le dialogue est textuel et prend essentiellement la forme d’une suite de questions-réponses.... More) ; les agents doivent pouvoir maintenir un dialogue construit où la gestion des tours de parole, les interruptions, sont prises en compte. Le dialogue peut être lié à la résolution de tâches collaboratives et tourné vers le social (comme raconter une histoire, bavarder, créer des liens affectifs). Suivant les applications dans lesquelles les agents seront placés, ceux-ci seront conduits à interagir à long terme avec les utilisateurs. Cela demande que l’agent puisse mémoriser ce qui s’est dit dans les interactions précédentes, se construire une représentation mentale de ses interlocuteurs, créer une relation affective et de confiance avec eux.
Des agents virtuels et robotiques sont déployés dans de nombreuses applications. Parmi les plus courantes, on peut noter les assistants virtuels ; ils peuvent avoir aussi une fonction pédagogique et agir comme tuteur. Plusieurs “agents-compagnons” et “agents-coachs” ont été développés. Un autre domaine d’application est celui de la santé. Les agents peuvent donner des explications médicales, faire passer des tests de détection de dépression, voire même aider les gens à formuler leur mal- être. Ils sont aussi beaucoup déployés dans les jeux sérieux*. Cependant,
des règles éthiques doivent être posées, pour s’assurer par exemple du respect de la vie privée des utilisateurs et de ne pas les induire en erreur par manipulation. Ces questions sont très pertinentes, car les algorithmes de reconnaissance des émotions, voix de synthèse, reproduction de l’animation peuvent repousser les limites du réel et troubler la ligne de démarcation entre le réel et le virtuel, dépassant la vallée de l’étrangethéorie proposée par le roboticien Masahiro Mori, qui souligne la relation entre le niveau de ressemblance d’un objet à un humain et son degré de familiarité (sympathie). La vallée correspond aux objets (comme les robots humanoïdes et les agents conversationnels animés) qui ont une forte... More*.
Les méthodes d’intelligence artificielle employées dans ces formes d’interaction humain-machine reposent à la fois sur des modèles experts (par exemple, décrits par des logiques* formelles) et sur l’analyse automatique (par exemple, à l’aide d’algorithmes d’apprentissage) de don- nées multimodales d’interaction humain-humain ou humain-machine. Il faut donc développer des outils d’annotation de ces donnéesinformations ayant un caractère factuel, car se rapportant à des cas singuliers, elles peuvent provenir notamment de capteurs, ou de recueils auprès de personnes. C’est devenu un fait de société, que les données (en anglais “Data”) abondent dans de nombreux domaines, et qu’il faut en... More*, d’analyse et de synthèse de comportement, de dialogue, de voix de synthèse. La question de l’évaluation de ces modèles doit aussi être abordée. Elle se situe aussi bien au niveau de la performance de chacun des modules constituant un système d’interaction humain-machine qu’au niveau subjectif concernant la crédibilité de l’agent, son niveau de confiance, ses capacités relationnelles… Ainsi, il est important de développer des techniques d’évaluation et des benchmarks*.