Apprentissage par Renforcement pour l'Optimisation
Algorithme Actor-Critic
Architecture combinant un acteur qui sélectionne les actions selon une politique et un critique qui évalue ces actions, permettant un apprentissage plus stable et efficace.
← رجوع