Apprentissage Temporel Différentiel

📖

个术语

Apprentissage Temporel Différentiel

Méthode d'apprentissage par renforcement qui combine la programmation dynamique et les méthodes Monte Carlo pour mettre à jour les estimations de valeur après chaque étape sans attendre la fin d'un épisode.

📖

个术语

Erreur TD

Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.

📖

个术语

TD(λ)

Algorithme d'apprentissage temporel différentiel généralisé utilisant un paramètre λ pour pondérer les n-steps returns et les traces d'éligibilité, permettant un compromis entre TD(0) et Monte Carlo.

📖

个术语

Traces d'Éligibilité

Mécanisme qui garde une mémoire à court terme des états ou actions visités récemment, permettant d'assigner le crédit ou le blame de manière plus efficace dans l'apprentissage par renforcement.

📖

个术语

SARSA

Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).

📖

个术语

Bootstrapping TD

Technique où les estimations de valeur actuelles sont mises à jour en utilisant d'autres estimations de valeur, permettant un apprentissage en ligne sans attendre les résultats finaux.

📖

个术语

Return TD

Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.

📖

个术语

Mise à Jour TD

Processus itératif d'ajustement des estimations de valeur en utilisant l'erreur TD multipliée par un taux d'apprentissage pour réduire progressivement l'écart entre prédiction et réalité.

📖

个术语

Convergence TD

Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.

📖

个术语

Équation de Bellman TD

Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.

📖

个术语

Fonction de Valeur TD

Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.

📖

个术语

Predictive TD

Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.

📖

个术语

Control TD

Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.

📖

个术语

N-Step TD

Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.

AI 词汇表