MARL 对抗性 - AI 术语表

📖

个术语

零和博弈

理论场景中，一个智能体的总收益恰好等于另一个智能体的损失，在多智能体对抗学习中用于建模严格竞争关系的基础概念。

📖

个术语

极小化极大算法

决策算法，在对抗性情境中最大化可能的最小收益，用于制定针对对手最坏行动的稳健策略。

📖

个术语

纳什均衡

稳定状态，其中任何智能体都无法通过单方面改变其行为来改善自身策略，对于分析对抗性多智能体强化学习中的均衡点至关重要。

📖

个术语

自我对弈

训练方法，智能体通过与具有进化策略的自身副本竞争来学习，无需外部数据。

📖

个术语

稳健策略

强化学习策略，在面对对抗性扰动或环境意外变化时仍能保持高性能表现。

📖

个术语

最坏情况优化

优化范式，旨在最不利场景中最大化性能，对于开发能够抵御对抗性攻击的弹性智能体至关重要。

📖

个术语

对抗性攻击

智能体通过操纵环境或注入恶意扰动，故意降低其他智能体性能的行为。

📖

个术语

防御策略

为在多智能体系统中检测、对抗和从对抗性攻击中恢复而设计的一系列机制和策略。

📖

个术语

对抗性环境

一种学习环境，旨在主动向智能体呈现挑战和障碍，模拟现实世界中敌对或不可预测的条件。

📖

个术语

策略蒸馏

一种知识转移技术，将智能体学习的复杂策略压缩为更简单有效的形式，通常在对抗性训练后使用。

📖

个术语

对抗性强化学习

一种强化学习范式，在训练过程中明确整合对抗性智能体，以提高鲁棒性和泛化能力。

📖

个术语

多智能体对抗赌博机

赌博机问题的扩展，其中多个智能体在环境中交互，奖励可能被对手操纵。

📖

个术语

对抗性模仿学习

使用对抗性判别器来评估和改进模仿专家行为质量的模仿学习方法。

📖

个术语

鲁棒性测试

系统评估智能体在极端场景和协同攻击下的性能，以衡量其韧性并识别漏洞。

📖

个术语

对抗性扰动

对观察或环境进行的细微但有意的修改，旨在诱导目标智能体在决策中出错。

📖

个术语

策略不确定性

关于对手未来意图和策略的不确定性，需要在多智能体决策中采用概率性和自适应方法。

📖

个术语

博弈论多智能体强化学习

将博弈论应用于多智能体强化学习，用于分析和优化竞争性情境中的策略行为。

AI 词汇表