Apprentissage par Renforcement pour l'Optimisation
Récompense Cumulée
Somme des récompenses futures escomptées que l'agent cherche à maximiser, souvent calculée avec un facteur d'escompte pour donner moins de poids aux récompenses lointaines.
← رجوع