problème d’apprentissage où l’idée de base est d’apprendre, à partir d’expériences itérées, un comportement décisionnel, qui associe à un état courant l’action optimale à exécuter, en maximisant la somme de récompenses, positives ou négatives précédemment obtenues au cours du temps.
De quoi s'agit-il vraiment ?