🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

Eligibility Trace

Mécanisme d'apprentissage par renforcement qui maintient une mémoire à court terme des états visités ou des actions prises, permettant de propager les récompenses rétroactivement aux décisions pertinentes.

📖
術語

TD(λ) Algorithm

Algorithme d'apprentissage temporel-différence qui combine les avantages de TD(0) et Monte Carlo via un paramètre λ contrôlant la décroissance des traces d'éligibilité.

📖
術語

Forward View

Perspective théorique des eligibility traces qui calcule les mises à jour en regardant vers l'avant depuis chaque état visité, pondérant les n-steps returns selon λ^n.

📖
術語

Backward View

Implémentation pratique des eligibility traces qui propage les mises à jour en arrière depuis la récompense reçue, en utilisant les traces accumulées pour distribuer le crédit.

📖
術語

Accumulating Traces

Type d'eligibility trace où la valeur de la trace augmente à chaque visite d'un état sans être réinitialisée, créant une accumulation progressive d'éligibilité.

📖
術語

Replacing Traces

Variante d'eligibility trace où la valeur est réinitialisée à 1 à chaque visite d'un état plutôt que d'être additionnée, évitant la suraccumulation pour les visites fréquentes.

📖
術語

Fading Traces

Mécanisme où les eligibility traces décroissent exponentiellement avec le temps, modélisant l'oubli naturel et limitant l'influence des décisions anciennes.

📖
術語

Dutch Traces

Variante hybride d'eligibility traces combinant les caractéristiques accumulating et replacing, offrant un compromis entre sensibilité et stabilité.

📖
術語

Trace Decay Parameter

Paramètre λ dans [0,1] contrôlant la vitesse de décroissance des eligibility traces, équilibrant biais-variance et déterminant la profondeur temporelle du crédit assignment.

📖
術語

Temporal Credit Assignment

Problème fondamental consistant à attribuer correctement les récompenses aux actions ou états passés qui ont contribué à leur obtention.

📖
術語

Q(λ) Learning

Extension off-policy de Q-learning utilisant les eligibility traces pour accélérer la convergence vers la politique optimale en environnement partiellement observable.

📖
術語

True Online TD(λ)

Variante exacte de TD(λ) garantissant l'équivalence parfaite entre forward et backward views, éliminant les erreurs d'approximation des implémentations classiques.

📖
術語

Eligibility Vector

Structure de données multidimensionnelle stockant les traces d'éligibilité pour tous les états ou paires état-action du système, permettant des mises à jour parallèles.

📖
術語

Trace Function

Fonction mathématique définissant comment les eligibility traces sont mises à jour, accumulées et décroissent au cours du temps selon le schéma choisi.

📖
術語

Replacing Accumulating Traces

Hybride sophistiqué combinant accumulation pour les états distincts et remplacement pour les visites répétées du même état dans un épisode.

📖
術語

Trace Threshold

Valeur minimale en dessous de laquelle les eligibility traces sont considérées comme nulles et ignorées, optimisant le calcul et réduisant le bruit.

📖
術語

Bias-Variance Tradeoff in Traces

Équilibre délicat où λ proche de 0 réduit le biais mais augmente la variance, tandis que λ proche de 1 fait l'inverse, impactant la vitesse de convergence.

🔍

搵唔到結果