Глоссарий ИИ
Полный словарь искусственного интеллекта
Eligibility Trace
Mécanisme d'apprentissage par renforcement qui maintient une mémoire à court terme des états visités ou des actions prises, permettant de propager les récompenses rétroactivement aux décisions pertinentes.
TD(λ) Algorithm
Algorithme d'apprentissage temporel-différence qui combine les avantages de TD(0) et Monte Carlo via un paramètre λ contrôlant la décroissance des traces d'éligibilité.
Forward View
Perspective théorique des eligibility traces qui calcule les mises à jour en regardant vers l'avant depuis chaque état visité, pondérant les n-steps returns selon λ^n.
Backward View
Implémentation pratique des eligibility traces qui propage les mises à jour en arrière depuis la récompense reçue, en utilisant les traces accumulées pour distribuer le crédit.
Accumulating Traces
Type d'eligibility trace où la valeur de la trace augmente à chaque visite d'un état sans être réinitialisée, créant une accumulation progressive d'éligibilité.
Replacing Traces
Variante d'eligibility trace où la valeur est réinitialisée à 1 à chaque visite d'un état plutôt que d'être additionnée, évitant la suraccumulation pour les visites fréquentes.
Fading Traces
Mécanisme où les eligibility traces décroissent exponentiellement avec le temps, modélisant l'oubli naturel et limitant l'influence des décisions anciennes.
Dutch Traces
Variante hybride d'eligibility traces combinant les caractéristiques accumulating et replacing, offrant un compromis entre sensibilité et stabilité.
Trace Decay Parameter
Paramètre λ dans [0,1] contrôlant la vitesse de décroissance des eligibility traces, équilibrant biais-variance et déterminant la profondeur temporelle du crédit assignment.
Temporal Credit Assignment
Problème fondamental consistant à attribuer correctement les récompenses aux actions ou états passés qui ont contribué à leur obtention.
Q(λ) Learning
Extension off-policy de Q-learning utilisant les eligibility traces pour accélérer la convergence vers la politique optimale en environnement partiellement observable.
True Online TD(λ)
Variante exacte de TD(λ) garantissant l'équivalence parfaite entre forward et backward views, éliminant les erreurs d'approximation des implémentations classiques.
Eligibility Vector
Structure de données multidimensionnelle stockant les traces d'éligibilité pour tous les états ou paires état-action du système, permettant des mises à jour parallèles.
Trace Function
Fonction mathématique définissant comment les eligibility traces sont mises à jour, accumulées et décroissent au cours du temps selon le schéma choisi.
Replacing Accumulating Traces
Hybride sophistiqué combinant accumulation pour les états distincts et remplacement pour les visites répétées du même état dans un épisode.
Trace Threshold
Valeur minimale en dessous de laquelle les eligibility traces sont considérées comme nulles et ignorées, optimisant le calcul et réduisant le bruit.
Bias-Variance Tradeoff in Traces
Équilibre délicat où λ proche de 0 réduit le biais mais augmente la variance, tandis que λ proche de 1 fait l'inverse, impactant la vitesse de convergence.