Implicit Q-Learning (IQL)
Optimisation Batch-Constrained
Stratégie dans IQL qui contraint les actions apprises à rester proches de celles observées dans le jeu de données pour éviter les extrapolations non fiables.
← Volver