Model-Based Offline RL
Conservative Policy Optimization
Algorithme qui pénalise explicitement les politiques qui s'écartent significativement du comportement des données d'entraînement pour éviter les erreurs d'extrapolation.
← Volver