演员-评论员方法 - AI 术语表

📖

个术语

强化学习架构，结合了学习随机策略的actor网络和估计价值函数的critic网络，以减少策略梯度的方差。

📖

个术语

数学函数，用于估计从状态或状态-动作对开始的预期累积回报，作为Actor-Critic架构中评论家的学习信号。

📖

个术语

分布式架构，其中多个智能体在独立环境中并行训练，周期性地共享梯度以加速学习。

📖

个术语

适用于连续动作空间的Actor-Critic算法，使用具有确定性策略的深度神经网络和回放缓冲区进行稳定的离策略学习。

📖

个术语

DDPG的改进版本，使用双评论家减少价值高估，并通过延迟actor和目标更新提高稳定性。

📖

个术语

最大化熵奖励的Actor-Critic算法，结合回报和熵以鼓励探索，使用稳定高效的离策略更新。

📖

个术语

A3C的同步变体，使用优势估计减少策略梯度方差，采用批量更新以在GPU上获得更好的稳定性。

📖

个术语

估计价值函数V(s)或Q(s,a)的神经网络，为actor提供时间差学习信号，使用预测误差作为优化梯度。

AI 词汇表