Éligibility Traces - Глоссарий ИИ

📖

термины

Eligibility Trace

Mécanisme d'apprentissage par renforcement qui maintient une mémoire à court terme des états visités ou des actions prises, permettant de propager les récompenses rétroactivement aux décisions pertinentes.

📖

термины

TD(λ) Algorithm

Algorithme d'apprentissage temporel-différence qui combine les avantages de TD(0) et Monte Carlo via un paramètre λ contrôlant la décroissance des traces d'éligibilité.

📖

термины

Forward View

Perspective théorique des eligibility traces qui calcule les mises à jour en regardant vers l'avant depuis chaque état visité, pondérant les n-steps returns selon λ^n.

📖

термины

Backward View

Implémentation pratique des eligibility traces qui propage les mises à jour en arrière depuis la récompense reçue, en utilisant les traces accumulées pour distribuer le crédit.

📖

термины

Accumulating Traces

Type d'eligibility trace où la valeur de la trace augmente à chaque visite d'un état sans être réinitialisée, créant une accumulation progressive d'éligibilité.

📖

термины

Replacing Traces

Variante d'eligibility trace où la valeur est réinitialisée à 1 à chaque visite d'un état plutôt que d'être additionnée, évitant la suraccumulation pour les visites fréquentes.

📖

термины

Fading Traces

Mécanisme où les eligibility traces décroissent exponentiellement avec le temps, modélisant l'oubli naturel et limitant l'influence des décisions anciennes.

📖

термины

Dutch Traces

Variante hybride d'eligibility traces combinant les caractéristiques accumulating et replacing, offrant un compromis entre sensibilité et stabilité.

📖

термины

Trace Decay Parameter

Paramètre λ dans [0,1] contrôlant la vitesse de décroissance des eligibility traces, équilibrant biais-variance et déterminant la profondeur temporelle du crédit assignment.

📖

термины

Temporal Credit Assignment

Problème fondamental consistant à attribuer correctement les récompenses aux actions ou états passés qui ont contribué à leur obtention.

📖

термины

Q(λ) Learning

Extension off-policy de Q-learning utilisant les eligibility traces pour accélérer la convergence vers la politique optimale en environnement partiellement observable.

📖

термины

True Online TD(λ)

Variante exacte de TD(λ) garantissant l'équivalence parfaite entre forward et backward views, éliminant les erreurs d'approximation des implémentations classiques.

📖

термины

Eligibility Vector

Structure de données multidimensionnelle stockant les traces d'éligibilité pour tous les états ou paires état-action du système, permettant des mises à jour parallèles.

📖

термины

Trace Function

Fonction mathématique définissant comment les eligibility traces sont mises à jour, accumulées et décroissent au cours du temps selon le schéma choisi.

📖

термины

Replacing Accumulating Traces

Hybride sophistiqué combinant accumulation pour les états distincts et remplacement pour les visites répétées du même état dans un épisode.

📖

термины

Trace Threshold

Valeur minimale en dessous de laquelle les eligibility traces sont considérées comme nulles et ignorées, optimisant le calcul et réduisant le bruit.

📖

термины

Bias-Variance Tradeoff in Traces

Équilibre délicat où λ proche de 0 réduit le biais mais augmente la variance, tandis que λ proche de 1 fait l'inverse, impactant la vitesse de convergence.

Глоссарий ИИ

Eligibility Trace

TD(λ) Algorithm

Forward View

Backward View

Accumulating Traces

Replacing Traces

Fading Traces

Dutch Traces

Trace Decay Parameter

Temporal Credit Assignment

Q(λ) Learning

True Online TD(λ)

Eligibility Vector

Trace Function

Replacing Accumulating Traces

Trace Threshold

Bias-Variance Tradeoff in Traces

Результаты не найдены