Apprentissage par Renforcement pour l'Optimisation
Mémoire de Reprise d'Expérience
Structure de données stockant les transitions (état, action, récompense, prochain état) pour rééchantillonnage pendant l'entraînement, améliorant l'efficacité d'utilisation des données.
← Retour