Landry Steve Noulawe Tchamanbe

    Algorithmes de sortie du Piège de la Zone
Ennuyeuse en apprentissage par renforcement

Landry Steve Noulawe Tchamanbe* — Paulin Melatagia Yonta*,**
* Département d’informatique, Université de Yaoundé I, Cameroun
** Sorbonne Université, IRD, UMMISCO, F-93143, Bondy, France 

RÉSUMÉ. Les algorithmes d’apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses
entre les zones de l’environnement. Cette différence de variance conduit à deux problèmes: le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l’algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l’algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous  » decay RASRN, Full RASRN et Stepwise decay RASRN. Grâce à deux séries d’expérimentations menées sur le problème du bandit à k bras, nous montrons que ces
algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.

ABSTRACT. Reinforcement learning algorithms have succeeded over the years in achieving impressive results in a variety of fields. However, these algorithms suffer from certain weaknesses highlighted by Refael Vivanti and al. that may explain the regression of even well-trained agents in certain environments : the difference in variance on rewards between areas of the environment. This difference in variance leads to two problems : Boring Area Trap and Manipulative consultant. We note that the Adaptive Symmetric Reward Noising (ASRN) algorithm proposed by Refael Vivanti and al. has limitations for environments with the following characteristics : long game times and multiple boring area environments. To overcome these problems, we propose three algorithms derived from the ASRN algorithm called Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous  » decay RASRN, Full RASRN and Stepwise decay RASRN. Thanks to two series of experiments carried out on the k-armed bandit problem, we show that our algorithms can better correct the Boring Area Trap problem.

MOTS-CLÉS : Apprentissage par renforcement, Piège de la Zone Ennuyeuse, ASRN, bandit à k bras.

KEYWORDS : Reinforcement Learning, Boring Area Trap, ASRN, k-armed bandit

Video short presentation