Apprentissage Temporel Différentiel

📖

термины

Méthode d'apprentissage par renforcement qui combine la programmation dynamique et les méthodes Monte Carlo pour mettre à jour les estimations de valeur après chaque étape sans attendre la fin d'un épisode.

📖

термины

Erreur TD

Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.

📖

термины

TD(λ)

Algorithme d'apprentissage temporel différentiel généralisé utilisant un paramètre λ pour pondérer les n-steps returns et les traces d'éligibilité, permettant un compromis entre TD(0) et Monte Carlo.

📖

термины

Traces d'Éligibilité

Mécanisme qui garde une mémoire à court terme des états ou actions visités récemment, permettant d'assigner le crédit ou le blame de manière plus efficace dans l'apprentissage par renforcement.

📖

термины

SARSA

Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).

📖

термины

Bootstrapping TD

Technique où les estimations de valeur actuelles sont mises à jour en utilisant d'autres estimations de valeur, permettant un apprentissage en ligne sans attendre les résultats finaux.

📖

термины

Return TD

Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.

📖

термины

Mise à Jour TD

Processus itératif d'ajustement des estimations de valeur en utilisant l'erreur TD multipliée par un taux d'apprentissage pour réduire progressivement l'écart entre prédiction et réalité.

📖

термины

Convergence TD

Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.

📖

термины

Équation de Bellman TD

Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.

📖

термины

Fonction de Valeur TD

Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.

📖

термины

Predictive TD

Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.

📖

термины

Control TD

Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.

📖

термины

N-Step TD

Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.

Глоссарий ИИ