Optimisation Stochastique en RL
Robbins-Monro Algorithm
Fondateur des méthodes d'approximation stochastique, utilisant un pas d'apprentissage décroissant pour garantir la convergence vers des points stationnaires dans un environnement bruité.
← Retour