apprentissage par renforcementproblème d’apprentissage où l’idée de base est d’apprendre, à partir d’expériences itérées, un comportement décisionnel, qui associe à un état courant l’action optimale à exécuter, en maximisant la somme de récompenses, positives ou négatives précédemment obtenues au cours du temps.... More* qui utilise des réseaux de neurones profonds* pour la mise à jour de son modèle.
De quoi s'agit-il vraiment ?