多智能体深度强化学习

📖

个术语

MARL (多智能体强化学习)

一种学习范式，其中多个智能体在共享环境中同时交互，分别或集体地学习最优策略。

📖

个术语

中心化训练与去中心化执行 (CTDE)

一种方法，其中智能体使用集中的全局信息进行训练，但使用局部观察以去中心化方式执行策略。

📖

个术语

QMIX (Q值混合)

一种Q值分解算法，将联合Q值表示为各智能体个体Q值的非线性单调组合。

📖

个术语

VDN (值分解网络)

一种总价值分解方法，在协作框架中将联合价值分解为每个智能体的个体价值之和。

📖

个术语

MADDPG (多智能体深度确定性策略梯度)

DDPG向多智能体环境的扩展，使用中心化学习与去中心化执行来处理混合环境。

📖

个术语

COMA (反事实多智能体策略梯度)

一种算法，使用反事实基础来估计个体行动如何影响整体回报，通过改变一个智能体的策略同时保持其他智能体固定。

📖

个术语

Dec-POMDP (去中心化部分可观察马尔可夫决策过程)

多智能体序列决策问题的数学形式化，具有部分观察和去中心化决策。

📖

个术语

信用分配

在协作多智能体环境中确定每个智能体对集体奖励贡献的基本问题。

📖

个术语

联合动作学习

一种技术，其中智能体通过考虑环境中所有智能体的同时动作来学习协调其动作。

📖

个术语

智能体建模

智能体构建和维护环境中其他智能体的意图、信念和策略的心理模型的能力。

📖

个术语

多智能体强化学习中的平均场理论

通过统计平均场近似集体影响来处理大规模多智能体交互的理论方法。

📖

个术语

对手建模

在竞争性游戏中，学习对手策略和行为以预测其行动并优化自身策略的过程。

📖

个术语

多智能体强化学习中的通信协议

允许智能体在合作任务中交换信息以提高协调和集体效率的机制。

📖

个术语

合作型多智能体强化学习

多智能体强化学习的子领域，其中智能体共享共同目标并通过协调和协作最大化集体奖励。

📖

个术语

竞争型多智能体强化学习

多智能体框架，其中个体或团队在零和或非零和游戏中竞争以最大化个人奖励。

📖

个术语

混合动机多智能体强化学习

结合合作和竞争元素的多智能体环境，其中智能体必须平衡个人利益和集体目标。

📖

个术语

突现行为

在共享环境中，学习智能体之间交互所自发产生的、未被预设的复杂行为。

📖

个术语

多智能体强化学习中的注意力机制

一种允许智能体选择性地对来自其他智能体或环境部分的信息进行加权，以做出更优决策的技术。

📖

个术语

多智能体强化学习中的课程学习

一种从简单任务到复杂任务循序渐进的训练策略，旨在促进智能体在多智能体环境中学习鲁棒的策略。

📖

个术语

多智能体强化学习的可扩展性

指在面对随智能体数量增加而呈指数级增长的联合动作空间时，如何保持学习性能的算法挑战。

AI 词汇表