🏠 Startseite
Vergleiche
📊 Alle Benchmarks 🦖 Dinosaurier v1 🦖 Dinosaurier v2 ✅ To-Do-Listen-Apps 🎨 Kreative freie Seiten 🎯 FSACB - Ultimatives Showcase 🌍 Übersetzungs-Benchmark
Modelle
🏆 Top 10 Modelle 🆓 Kostenlose Modelle 📋 Alle Modelle ⚙️ Kilo Code
Ressourcen
💬 Prompt-Bibliothek 📖 KI-Glossar 🔗 Nützliche Links

KI-Glossar

Das vollständige Wörterbuch der Künstlichen Intelligenz

162
Kategorien
2.032
Unterkategorien
23.060
Begriffe
📖
Begriffe

Eligibility Trace

Mécanisme d'apprentissage par renforcement qui maintient une mémoire à court terme des états visités ou des actions prises, permettant de propager les récompenses rétroactivement aux décisions pertinentes.

📖
Begriffe

TD(λ) Algorithm

Algorithme d'apprentissage temporel-différence qui combine les avantages de TD(0) et Monte Carlo via un paramètre λ contrôlant la décroissance des traces d'éligibilité.

📖
Begriffe

Forward View

Perspective théorique des eligibility traces qui calcule les mises à jour en regardant vers l'avant depuis chaque état visité, pondérant les n-steps returns selon λ^n.

📖
Begriffe

Backward View

Implémentation pratique des eligibility traces qui propage les mises à jour en arrière depuis la récompense reçue, en utilisant les traces accumulées pour distribuer le crédit.

📖
Begriffe

Accumulating Traces

Type d'eligibility trace où la valeur de la trace augmente à chaque visite d'un état sans être réinitialisée, créant une accumulation progressive d'éligibilité.

📖
Begriffe

Replacing Traces

Variante d'eligibility trace où la valeur est réinitialisée à 1 à chaque visite d'un état plutôt que d'être additionnée, évitant la suraccumulation pour les visites fréquentes.

📖
Begriffe

Fading Traces

Mécanisme où les eligibility traces décroissent exponentiellement avec le temps, modélisant l'oubli naturel et limitant l'influence des décisions anciennes.

📖
Begriffe

Dutch Traces

Variante hybride d'eligibility traces combinant les caractéristiques accumulating et replacing, offrant un compromis entre sensibilité et stabilité.

📖
Begriffe

Trace Decay Parameter

Paramètre λ dans [0,1] contrôlant la vitesse de décroissance des eligibility traces, équilibrant biais-variance et déterminant la profondeur temporelle du crédit assignment.

📖
Begriffe

Temporal Credit Assignment

Problème fondamental consistant à attribuer correctement les récompenses aux actions ou états passés qui ont contribué à leur obtention.

📖
Begriffe

Q(λ) Learning

Extension off-policy de Q-learning utilisant les eligibility traces pour accélérer la convergence vers la politique optimale en environnement partiellement observable.

📖
Begriffe

True Online TD(λ)

Variante exacte de TD(λ) garantissant l'équivalence parfaite entre forward et backward views, éliminant les erreurs d'approximation des implémentations classiques.

📖
Begriffe

Eligibility Vector

Structure de données multidimensionnelle stockant les traces d'éligibilité pour tous les états ou paires état-action du système, permettant des mises à jour parallèles.

📖
Begriffe

Trace Function

Fonction mathématique définissant comment les eligibility traces sont mises à jour, accumulées et décroissent au cours du temps selon le schéma choisi.

📖
Begriffe

Replacing Accumulating Traces

Hybride sophistiqué combinant accumulation pour les états distincts et remplacement pour les visites répétées du même état dans un épisode.

📖
Begriffe

Trace Threshold

Valeur minimale en dessous de laquelle les eligibility traces sont considérées comme nulles et ignorées, optimisant le calcul et réduisant le bruit.

📖
Begriffe

Bias-Variance Tradeoff in Traces

Équilibre délicat où λ proche de 0 réduit le biais mais augmente la variance, tandis que λ proche de 1 fait l'inverse, impactant la vitesse de convergence.

🔍

Keine Ergebnisse gefunden