BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

异步优势行动者-评论家 (A3C)

分布式架构，其中多个智能体在环境的副本上并行训练，采样不相关的轨迹并加速收敛。

软行动者-评论家 (SAC)

离策略算法，从期望奖励和策略熵中最大化，促进探索并提高对超参数的鲁棒性。

深度确定性策略梯度 (DDPG)

用于连续动作空间的离策略算法，结合了DQN和Actor-Critic，使用目标网络和确定性策略。

双延迟DDPG (TD3)

DDPG的改进版本，使用两个评论家网络来减少过高估计偏差，并延迟行动者更新以提高稳定性。

Munchausen强化学习

在Q值更新中引入对数熵项的算法，受Munchausen算法启发，改善探索和稳定性。

🔍

搵唔到結果