AI用語集
人工知能の完全辞典
MARL (マルチエージェント強化学習)
複数のエージェントが共有環境で同時に相互作用し、個別または集団的に最適なポリシーを学習する学習パラダイム。
中央集権型学習と分散実行 (CTDE)
エージェントが中央集権的なグローバル情報を使用して学習するが、ローカルな観測でポリシーを分散的に実行するアプローチ。
QMIX (Q値ミキシング)
各エージェントの個別のQ値の単調非線形結合として共同Q値を表現するQ値分解アルゴリズム。
VDN (価値分解ネットワーク)
協調的フレームワークで、共同価値を各エージェントの個別価値の合計として分解する合計価値の因子分解法。
MADDPG (マルチエージェント深層決定論的方策勾配)
DDPGのマルチエージェント環境への拡張で、混合環境で中央集権型学習と分散実行を使用する。
COMA (反実マルチエージェント方策勾配)
あるエージェントの方策を変更し他を固定したまま、個別の行動が全体報酬にどのように影響するかを反実ベースで推定するアルゴリズム。
Dec-POMDP (分散型部分観測マルコフ決定過程)
部分観測と分散意思決定を伴うマルチエージェント逐次意思決定問題の数学的形式化。
クレジット割り当て
協調的マルチエージェント環境で、各エージェントが集団報酬に与える貢献を決定する根本的な問題。
協調行動学習
エージェントが環境内のすべてのエージェントの同時行動を考慮して行動を調整する方法を学ぶ技術。
エージェントモデリング
エージェントが環境内の他のエージェントの意図、信念、方策の精神的モデルを構築・維持する能力。
MARLにおける平均場理論
大規模なマルチエージェント相互作用を統計的平均場によって近似して扱う理論的アプローチ。
対戦相手モデリング
競争的なゲームにおいて対戦相手の戦略と行動を学習し、その行動を予測して自身の方策を最適化するプロセス。
MARLにおける通信プロトコル
協調タスクにおいてエージェント間で情報を交換し、集団の調整と効率を向上させるための仕組み。
協調的MARL
エージェントが共通の目標を持ち、調整と協力を通じて集合的な報酬を最大化するMARLのサブ分野。
競争的MARL
個々のエージェントやチームがゼロ和または非ゼロ和ゲームで対戦し、個々の報酬を最大化するマルチエージェントフレームワーク。
混合的動機MARL
協調的要素と競争的要素を組み合わせたマルチエージェント環境で、エージェントが個人的利益と集団目標のバランスを取る必要がある。
創発的行動
共有環境内で学習するエージェント間の相互作用から自発的に現れる非プログラム化された複雑な行動。
MARLにおける注意機構
エージェントが他のエージェントや環境の一部からの情報を選択的に重み付けして、より良い決定を下すための技術。
MARLにおけるカリキュラム学習
マルチエージェント環境で堅牢なポリシーの学習を容易にするために、単純なタスクから複雑なタスクへと進む訓練戦略。
MARLにおけるスケーラビリティ
エージェントの数に応じて共同行動空間が指数関数的に増加する状況で学習パフォーマンスを維持するというアルゴリズム上の課題。