🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Eligibility Trace

Mécanisme d'apprentissage par renforcement qui maintient une mémoire à court terme des états visités ou des actions prises, permettant de propager les récompenses rétroactivement aux décisions pertinentes.

📖
термины

TD(λ) Algorithm

Algorithme d'apprentissage temporel-différence qui combine les avantages de TD(0) et Monte Carlo via un paramètre λ contrôlant la décroissance des traces d'éligibilité.

📖
термины

Forward View

Perspective théorique des eligibility traces qui calcule les mises à jour en regardant vers l'avant depuis chaque état visité, pondérant les n-steps returns selon λ^n.

📖
термины

Backward View

Implémentation pratique des eligibility traces qui propage les mises à jour en arrière depuis la récompense reçue, en utilisant les traces accumulées pour distribuer le crédit.

📖
термины

Accumulating Traces

Type d'eligibility trace où la valeur de la trace augmente à chaque visite d'un état sans être réinitialisée, créant une accumulation progressive d'éligibilité.

📖
термины

Replacing Traces

Variante d'eligibility trace où la valeur est réinitialisée à 1 à chaque visite d'un état plutôt que d'être additionnée, évitant la suraccumulation pour les visites fréquentes.

📖
термины

Fading Traces

Mécanisme où les eligibility traces décroissent exponentiellement avec le temps, modélisant l'oubli naturel et limitant l'influence des décisions anciennes.

📖
термины

Dutch Traces

Variante hybride d'eligibility traces combinant les caractéristiques accumulating et replacing, offrant un compromis entre sensibilité et stabilité.

📖
термины

Trace Decay Parameter

Paramètre λ dans [0,1] contrôlant la vitesse de décroissance des eligibility traces, équilibrant biais-variance et déterminant la profondeur temporelle du crédit assignment.

📖
термины

Temporal Credit Assignment

Problème fondamental consistant à attribuer correctement les récompenses aux actions ou états passés qui ont contribué à leur obtention.

📖
термины

Q(λ) Learning

Extension off-policy de Q-learning utilisant les eligibility traces pour accélérer la convergence vers la politique optimale en environnement partiellement observable.

📖
термины

True Online TD(λ)

Variante exacte de TD(λ) garantissant l'équivalence parfaite entre forward et backward views, éliminant les erreurs d'approximation des implémentations classiques.

📖
термины

Eligibility Vector

Structure de données multidimensionnelle stockant les traces d'éligibilité pour tous les états ou paires état-action du système, permettant des mises à jour parallèles.

📖
термины

Trace Function

Fonction mathématique définissant comment les eligibility traces sont mises à jour, accumulées et décroissent au cours du temps selon le schéma choisi.

📖
термины

Replacing Accumulating Traces

Hybride sophistiqué combinant accumulation pour les états distincts et remplacement pour les visites répétées du même état dans un épisode.

📖
термины

Trace Threshold

Valeur minimale en dessous de laquelle les eligibility traces sont considérées comme nulles et ignorées, optimisant le calcul et réduisant le bruit.

📖
термины

Bias-Variance Tradeoff in Traces

Équilibre délicat où λ proche de 0 réduit le biais mais augmente la variance, tandis que λ proche de 1 fait l'inverse, impactant la vitesse de convergence.

🔍

Результаты не найдены