Apprentissage Temporel Différentiel
Control TD
Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.
← Zurück