AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
多智能体强化学习
多个智能体在共享环境中同时学习决策的范式,通过相互交互来优化集体或个体目标。
術語
多智能体深度确定性策略梯度(MADDPG)
将DDPG扩展到多智能体环境的CTDE算法,使用集中式评论家和分散式执行器在连续动作空间中学习。
術語
多智能体部分可观测马尔可夫决策过程(MPOMDP)
MARL环境的数学形式化,其中每个智能体具有部分观测,必须推断全局状态以做出最优决策。
術語
平均场博弈
研究大量理性智能体相互作用的理论,通过平均场近似群体效应,适用于大规模多智能体系统。
術語
连续控制
MARL的应用领域,智能体需要控制具有连续动作的物理系统,如移动机器人或物体操控。
術語
随机博弈
将MDP扩展到多智能体环境,其中状态转移和奖励取决于所有智能体的联合动作,模拟合作和竞争场景。
術語
MARL中的纳什均衡
稳定性概念,任何智能体都无法通过单方面改变策略来提高其奖励,用作竞争性MARL算法的收敛标准。
術語
协调协议
通信或同步机制,使智能体能够在连续MARL环境中协调行动以实现集体目标。
🔍