Apprentissage par Renforcement pour l'Optimisation
Optimisation de Politique
Classe de méthodes en apprentissage par renforcement qui optimisent directement la politique sans passer par une fonction de valeur, utilisant souvent des techniques de gradient de politique.
← Volver