多智能体强化学习中的应用理论

📖

術語

纳什均衡

博弈论中的基本概念，指在其他代理策略固定的情况下，任何代理都无法通过单方面改变策略来提高自身收益的稳定状态。

📖

術語

零和博弈

一种博弈类型，所有代理的总收益保持不变，意味着一个代理的收益恰好等于其他代理的损失。

📖

術語

均衡点

稳定的策略配置，在该配置下没有任何代理有单方面偏离的动机，代表了多代理系统中的静止状态。

📖

術語

最优反应

在给定其他代理策略的情况下，某个代理能够最大化其期望收益的最优策略。

📖

術語

虚拟学习

一种迭代算法，每个代理假设对手将使用其过去行动的实证分布来确定自己的最优反应策略。

📖

術語

多代理Q学习

Q学习算法在多代理环境中的扩展，其中Q函数取决于所有代理的联合行动。

📖

術語

重复囚徒困境

重复进行的博弈，尽管在单次博弈中背叛占优，但合作仍能作为演化稳定策略出现。

📖

術語

协调博弈

一类博弈，代理通过选择相同策略而获益，可能产生多个潜在次优的均衡。

📖

術語

去中心化强化学习

每个智能体基于对环境的局部观察独立学习，无需中央通信的范式。

📖

術語

反事实遗憾最小化

在不完全信息扩展博弈中最小化反事实遗憾以收敛至纳什均衡的算法。

📖

術語

极小极大基本定理

为有限零和博弈建立混合策略纳什均衡存在性的数学原理。

📖

術語

多智能体策略学习

在多智能体系统中直接优化策略的方法，考虑学习智能体引起的非平稳性。

📖

術語

演化博弈论

将自然选择原理应用于智能体群体策略动态分析的理论框架。

📖

術語

随机博弈

将马尔可夫决策过程扩展到多智能体环境的博弈，其中状态转移和奖励取决于联合行动。

📖

術語

均衡收敛

在特定博弈条件下保证算法渐近逼近均衡点的学习算法特性。

AI 詞彙表