MARL 部分可观测 - AI 术语表

📖

个术语

POMDP（部分可观察马尔可夫决策过程）

理论框架，用于建模智能体只能感知到环境真实状态的部分观察的环境，需要通过概率推断隐藏状态来做出最优决策。

📖

个术语

观察空间

每个智能体可以从环境中感知到的部分感官信号的集合，代表系统全局状态的不完整信息。

📖

个术语

信念状态

智能体在隐藏状态空间上维护并基于连续观察更新的概率分布，用于表示对环境真实状态的不确定性。

📖

个术语

通信协议

定义智能体在部分可观察环境中何时、如何以及交换哪些信息以协调其行动的机制。

📖

个术语

集中训练分散执行

智能体使用全局信息（所有状态、动作）进行训练，但在执行时仅使用各自的局部观察来独立执行策略的方法。

📖

个术语

价值函数分解

将全局价值函数分解为个体或局部价值函数之和的技术，在保持全局一致性的同时实现分散学习。

📖

个术语

对手建模

基于观察到的其他智能体行为推断其策略或意图的过程，在竞争性或合作性环境中的决策制定至关重要。

📖

个术语

信用分配问题

在多智能体系统中将全局奖励正确分配给每个智能体的困难，在观察部分且行动相互依赖时尤为复杂。

📖

个术语

联合行动学习

一种方法，智能体通过明确建模组合行动对全局奖励的影响来学习协调行动，尽管存在部分可观测性。

📖

个术语

状态估计

一种算法过程，允许智能体从其局部观察和环境模型中推断最可能的全局状态。

📖

个术语

信息共享

定义智能体如何分发和聚合其局部观察以改进对环境状态集体认知的策略。

📖

个术语

局部观察历史

智能体过去观察的时间序列，用作额外上下文以弥补当前全局信息不足。

📖

个术语

多智能体部分可观测性

没有单个智能体能够观测系统完整状态的条件，需要协调和推理策略以达到最优性能。

📖

个术语

去中心化策略

每个智能体的决策函数，将其局部观察历史映射到行动，在执行期间不直接依赖其他智能体的信息。

📖

个术语

共同知识

所有智能体都知道并且知道其他智能体也知道的信息，在部分可观测环境中对协调至关重要。

📖

个术语

协调图

表示智能体间交互依赖关系的结构，允许将全局决策问题分解为更易解决的局部子问题。

AI 词汇表