Learning Temporel Différentiel
Algorithme Q-learning
Méthode TD off-policy qui apprend directement la fonction de valeur optimale en utilisant la meilleure action possible dans l'état suivant, indépendamment de la politique suivie.
← Indietro