集中式-分布式MARL
多智能体深度确定性策略梯度 (MADDPG)
将 DDPG 扩展到多智能体环境的算法,采用集中式-分散式学习,具有集中式评论器和分散式执行器。每个智能体在学习策略时将其他智能体的策略视为环境的一部分。
← 返回将 DDPG 扩展到多智能体环境的算法,采用集中式-分散式学习,具有集中式评论器和分散式执行器。每个智能体在学习策略时将其他智能体的策略视为环境的一部分。
← 返回