Apprentissage Temporel Différentiel

📖

Begriffe

Apprentissage Temporel Différentiel

Méthode d'apprentissage par renforcement qui combine la programmation dynamique et les méthodes Monte Carlo pour mettre à jour les estimations de valeur après chaque étape sans attendre la fin d'un épisode.

📖

Begriffe

Erreur TD

Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.

📖

Begriffe

TD(λ)

Algorithme d'apprentissage temporel différentiel généralisé utilisant un paramètre λ pour pondérer les n-steps returns et les traces d'éligibilité, permettant un compromis entre TD(0) et Monte Carlo.

📖

Begriffe

Traces d'Éligibilité

Mécanisme qui garde une mémoire à court terme des états ou actions visités récemment, permettant d'assigner le crédit ou le blame de manière plus efficace dans l'apprentissage par renforcement.

📖

Begriffe

SARSA

Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).

📖

Begriffe

Bootstrapping TD

Technique où les estimations de valeur actuelles sont mises à jour en utilisant d'autres estimations de valeur, permettant un apprentissage en ligne sans attendre les résultats finaux.

📖

Begriffe

Return TD

Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.

📖

Begriffe

Mise à Jour TD

Processus itératif d'ajustement des estimations de valeur en utilisant l'erreur TD multipliée par un taux d'apprentissage pour réduire progressivement l'écart entre prédiction et réalité.

📖

Begriffe

Convergence TD

Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.

📖

Begriffe

Équation de Bellman TD

Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.

📖

Begriffe

Fonction de Valeur TD

Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.

📖

Begriffe

Predictive TD

Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.

📖

Begriffe

Control TD

Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.

📖

Begriffe

N-Step TD

Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.

KI-Glossar