AI用語集
人工知能の完全辞典
ゼロサムゲーム
あるエージェントの総利得が別のエージェントの損失と正確に一致する理論的シナリオ。マルチエージェント敵対的学習において厳格な競争をモデル化する基礎となる。
ミニマックスアルゴリズム
敵対的状況において可能な最小利得を最大化する意思決定アルゴリズム。相手の最悪の行動に対して堅牢な戦略を開発するために使用される。
ナッシュ均衡
どのエージェントも一方的に行動を変更することで自身の戦略を改善できない安定状態。敵対的MARLにおける均衡点を分析するために重要。
セルフプレイ
エージェントが進化する戦略を持つ自身のコピーと競争しながら学習するトレーニング方法論。外部データの必要性を排除する。
堅牢なポリシー
敵対的摂動や環境の予期せぬ変化に直面しても高い性能を維持する強化学習ポリシー。
最悪ケース最適化
最も不利なシナリオでの性能を最大化することを目指す最適化パラダイム。敵対的攻撃に対して回復力のあるエージェントを開発するために不可欠。
敵対的攻撃
環境の操作や悪意のある摂動の注入によって他のエージェントの性能を低下させることを目的としたエージェントの意図的な行動。
防御戦略
マルチエージェントシステムにおける敵対的攻撃を検出、対抗、回復するために設計されたメカニズムとポリシーの集合。
敵対的環境
エージェントに積極的に課題や障害を提示するように設計された学習環境で、現実の敵対的または予測不可能な状況をシミュレートする
方策蒸留
エージェントが学習した複雑な方策をよりシンプルで効率的な形式に圧縮する知識転送技術で、敵対的訓練後に使用されることが多い
敵対的強化学習
ロバスト性と汎化能力を向上させるために、トレーニングプロセスに明示的に敵対的エージェントを統合する強化学習のパラダイム
マルチエージェント敵対的バンディット
複数のエージェントが敵対者によって操作される可能性のある報酬を持つ環境で相互作用する多腕バンディット問題の拡張
敵対的模倣学習
専門家との比較で模倣された行動の品質を評価・改善するために敵対的識別器を使用する模倣学習アプローチ
ロバストネステスト
エージェントのレジリエンスを測定し脆弱性を特定するために、極端なシナリオや調整された攻撃に対するパフォーマンスを体系的に評価すること
敵対的摂動
ターゲットエージェントの意思決定に誤りを誘発するように設計された、観測や環境への微妙だが意図的な変更
戦略的不確実性
敵対者の意図や将来の戦略に関する不確実性で、マルチエージェント意思決定における確率的かつ適応的アプローチを必要とする
ゲーム理論的MARL
競争的状況における戦略的行動を分析・最適化するために、ゲーム理論をマルチエージェント強化学習に応用すること。