Programmation Dynamique
Itération de la Valeur
Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.
← 뒤로