AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
异步优势行动者-评论家 (A3C)
分布式架构,其中多个智能体在环境的副本上并行训练,采样不相关的轨迹并加速收敛。
術語
软行动者-评论家 (SAC)
离策略算法,从期望奖励和策略熵中最大化,促进探索并提高对超参数的鲁棒性。
術語
深度确定性策略梯度 (DDPG)
用于连续动作空间的离策略算法,结合了DQN和Actor-Critic,使用目标网络和确定性策略。
術語
双延迟DDPG (TD3)
DDPG的改进版本,使用两个评论家网络来减少过高估计偏差,并延迟行动者更新以提高稳定性。
術語
Munchausen强化学习
在Q值更新中引入对数熵项的算法,受Munchausen算法启发,改善探索和稳定性。
🔍