Press "Enter" to skip to content

Bandit multi-bras

problème consistant à trouver parmi un certain nombre d’actions, dont les récompenses varient suivant des lois de pro- babilité (initialement) inconnues, celle(s) qui permettent d’obtenir la meilleure récompense (c’est le problème de choisir la machine à sous – bandit manchot – la plus prometteuse dans un casino). Le problème principal est de trouver un bon compromis entre l’exploration (déterminer les lois de probabilité) et l’exploitation (garantir une bonne récompense cumulée).