Apprentissage Temporel Différentiel
Fonction de Valeur TD
Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.
← Quay lại