Programmation Dynamique
Fonction de Valeur d'Action
Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.
← Kembali