AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
Actor-Critic
强化学习架构,结合了学习随机策略的actor网络和估计价值函数的critic网络,以减少策略梯度的方差。
个术语
价值函数
数学函数,用于估计从状态或状态-动作对开始的预期累积回报,作为Actor-Critic架构中评论家的学习信号。
个术语
异步优势演员-评论家
分布式架构,其中多个智能体在独立环境中并行训练,周期性地共享梯度以加速学习。
个术语
深度确定性策略梯度
适用于连续动作空间的Actor-Critic算法,使用具有确定性策略的深度神经网络和回放缓冲区进行稳定的离策略学习。
个术语
双延迟深度确定性策略梯度
DDPG的改进版本,使用双评论家减少价值高估,并通过延迟actor和目标更新提高稳定性。
个术语
软演员-评论家
最大化熵奖励的Actor-Critic算法,结合回报和熵以鼓励探索,使用稳定高效的离策略更新。
个术语
优势演员-评论家
A3C的同步变体,使用优势估计减少策略梯度方差,采用批量更新以在GPU上获得更好的稳定性。
个术语
评论家网络
估计价值函数V(s)或Q(s,a)的神经网络,为actor提供时间差学习信号,使用预测误差作为优化梯度。
🔍