Double Q-learning
Factorisation de l'espace d'actions
Application avancée de Double Q-learning où les deux estimateurs se spécialisent dans différents sous-ensembles d'actions, optimisant la réduction du biais dans des espaces d'action complexes.
← Zurück