KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Apprentissage Temporel Différentiel
Méthode d'apprentissage par renforcement qui combine la programmation dynamique et les méthodes Monte Carlo pour mettre à jour les estimations de valeur après chaque étape sans attendre la fin d'un épisode.
Erreur TD
Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.
TD(λ)
Algorithme d'apprentissage temporel différentiel généralisé utilisant un paramètre λ pour pondérer les n-steps returns et les traces d'éligibilité, permettant un compromis entre TD(0) et Monte Carlo.
Traces d'Éligibilité
Mécanisme qui garde une mémoire à court terme des états ou actions visités récemment, permettant d'assigner le crédit ou le blame de manière plus efficace dans l'apprentissage par renforcement.
SARSA
Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).
Bootstrapping TD
Technique où les estimations de valeur actuelles sont mises à jour en utilisant d'autres estimations de valeur, permettant un apprentissage en ligne sans attendre les résultats finaux.
Return TD
Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.
Mise à Jour TD
Processus itératif d'ajustement des estimations de valeur en utilisant l'erreur TD multipliée par un taux d'apprentissage pour réduire progressivement l'écart entre prédiction et réalité.
Convergence TD
Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.
Équation de Bellman TD
Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.
Fonction de Valeur TD
Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.
Predictive TD
Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.
Control TD
Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.
N-Step TD
Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.