Q-learning
Mise à jour de Bellman
Équation d'itération de la valeur qui met à jour la fonction Q en utilisant la récompense immédiate et la valeur Q maximale de l'état suivant, pondérée par le facteur d'escompte.
← Zurück