🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Actor-Critic

Architecture d'apprentissage par renforcement combinant un réseau acteur qui apprend une politique stochastique et un réseau critique qui estime la fonction de valeur pour réduire la variance du gradient de politique.

📖
термины

Value Function

Fonction mathématique estimant le retour cumulé attendu depuis un état ou une paire état-action, servant de signal d'apprentissage pour le critique dans l'architecture Actor-Critic.

📖
термины

Asynchronous Advantage Actor-Critic

Architecture distribuée où plusieurs agents s'entraînent en parallèle sur des environnements indépendants, partageant périodiquement leurs gradients pour accélérer l'apprentissage.

📖
термины

Deep Deterministic Policy Gradient

Algorithme Actor-Critic pour espaces d'action continus utilisant des réseaux neuronaux profonds avec politique déterministe et replay buffer pour l'apprentissage hors-politique stable.

📖
термины

Twin Delayed Deep Deterministic Policy Gradient

Amélioration de DDPG utilisant deux critiques jumeaux pour réduire la surévaluation de la valeur et des mises à jour différées de l'acteur et des cibles pour une meilleure stabilité.

📖
термины

Soft Actor-Critic

Algorithme Actor-Critic maximisant une récompense entropique combinant retour et entropie pour encourager l'exploration, utilisant des mises à jour hors-politique stables et efficaces.

📖
термины

Advantage Actor-Critic

Variante synchrone de A3C utilisant l'estimation de l'avantage pour réduire la variance du gradient de politique, avec des mises à jour batch pour une meilleure stabilité sur GPU.

📖
термины

Critic Network

Réseau neuronal estimant la fonction de valeur V(s) ou Q(s,a) pour fournir le signal d'apprentissage TD à l'acteur, utilisant l'erreur de prédiction comme gradient d'optimisation.

🔍

Результаты не найдены