MARL 部分観測可能

📖

用語

POMDP（部分観測マルコフ決定過程）

エージェントが実際の状態の部分的な観測しか知覚できない環境をモデル化する理論的枠組み。最適な意思決定を行うために、隠れた状態に関する確率的推論が必要とされる。

📖

用語

観測空間

各エージェントが環境から知覚できる部分的な感覚信号の集合。システムのグローバルな状態に関する不完全な情報を表す。

📖

用語

信念状態

エージェントが維持し、連続する観測から更新する、隠れた状態空間上の確率分布。環境の実際の状態に関する不確実性を表現する。

📖

用語

通信プロトコル

部分観測環境においてエージェント間で行動を調整するために、いつ、どのように、どの情報を交換できるかを定義するメカニズム。

📖

用語

集中訓練と分散実行

エージェントがグローバルな情報（全員の状態、行動）を使用して訓練するが、各自の観測のみを使用して個別に方策を実行するアプローチ。

📖

用語

価値関数の因数分解

グローバルな価値関数を個々の価値関数または局所的な関数の和に分解する技術。グローバルな一貫性を保ちながら分散学習を可能にする。

📖

用語

敵対者のモデリング

観測された行動に基づいて他のエージェントの方策や意図を推論するプロセス。競争的または協力的な環境での意思決定において重要。

📖

用語

クレジット割り当て問題

マルチエージェントシステムにおいて、グローバルな報酬を各エージェントに適切に割り当てる困難さ。特に観測が部分的で行動が相互依存している場合に複雑になる。

📖

用語

共同行動学習

部分的可観測性にもかかわらず、結合された行動が全体の報酬に与える影響を明示的にモデル化することで、エージェントが行動を調整する方法を学ぶ手法。

📖

用語

状態推定

エージェントが自身の局所観測と環境モデルから、最も可能性の高いグローバル状態を推論するアルゴリズム的プロセス。

📖

用語

情報共有

エージェントが局所観測を分散・集約して、環境状態に関する集団的知識を向上させる方法を定義する戦略。

📖

用語

局所観測履歴

現在のグローバル状態情報の不足を補うための追加コンテキストとして使用される、エージェントの過去の観測の時系列シーケンス。

📖

用語

マルチエージェント部分的可観測性

個々のエージェントがシステムの完全な状態を観測できず、最適な性能を達成するために調整と推論の戦略を必要とする状態。

📖

用語

分散ポリシー

実行中に他のエージェントからの情報に直接依存せず、各エージェントの局所観測履歴を行動にマッピングする意思決定関数。

📖

用語

共通知識

すべてのエージェントが知っており、他のエージェントも同様に知っていることを認識している情報。部分的可観測環境における調整に不可欠。

📖

用語

調整グラフ

エージェント間の相互作用の依存関係を表す構造。グローバルな意思決定問題を、解決が容易な局所的なサブ問題に因数分解することを可能にする。

AI用語集