Apprentissage Temporel Différentiel
Équation de Bellman TD
Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.
← 뒤로