Apprentissage par Dyna-Q
Fonction de planification
Composant algorithmique effectuant des mises à jour répétées sur les expériences stockées pour raffiner les estimations de valeur sans nouvelle interaction environnementale.
← Retour