Apprentissage Temporel Différentiel

📖

용어

Méthode d'apprentissage par renforcement qui combine la programmation dynamique et les méthodes Monte Carlo pour mettre à jour les estimations de valeur après chaque étape sans attendre la fin d'un épisode.

📖

용어

Erreur TD

Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.

📖

용어

TD(λ)

Algorithme d'apprentissage temporel différentiel généralisé utilisant un paramètre λ pour pondérer les n-steps returns et les traces d'éligibilité, permettant un compromis entre TD(0) et Monte Carlo.

📖

용어

Traces d'Éligibilité

Mécanisme qui garde une mémoire à court terme des états ou actions visités récemment, permettant d'assigner le crédit ou le blame de manière plus efficace dans l'apprentissage par renforcement.

📖

용어

SARSA

Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).

📖

용어

Bootstrapping TD

Technique où les estimations de valeur actuelles sont mises à jour en utilisant d'autres estimations de valeur, permettant un apprentissage en ligne sans attendre les résultats finaux.

📖

용어

Return TD

Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.

📖

용어

Mise à Jour TD

Processus itératif d'ajustement des estimations de valeur en utilisant l'erreur TD multipliée par un taux d'apprentissage pour réduire progressivement l'écart entre prédiction et réalité.

📖

용어

Convergence TD

Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.

📖

용어

Équation de Bellman TD

Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.

📖

용어

Fonction de Valeur TD

Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.

📖

용어

Predictive TD

Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.

📖

용어

Control TD

Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.

📖

용어

N-Step TD

Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.

AI 용어집