problème consistant à trouver parmi un certain nombre d’actions, dont les récompenses varient suivant des lois de pro- babilité (initialement) inconnues, celle(s) qui permettent d’obtenir la meilleure récompense (c’est le problème de choisir la machine à sous – bandit manchot – la plus prometteuse dans un casino). Le problème principal est de trouver un bon compromis entre l’exploration (déterminer les lois de probabilité) et l’exploitation (garantir une bonne récompense cumulée).
De quoi s'agit-il vraiment ?