Apprentissage par Renforcement pour l'Optimisation
Algorithme de Gradient de Politique
Méthode d'optimisation qui ajuste directement les paramètres de la politique en suivant le gradient de la récompense attendue par rapport à ces paramètres.
← Retour