深層強化学習マルチオブジェクト

📖

用語

多目的行動方策

複数の目的を同時に考慮して状態を行動にマッピングする戦略。伝統的な単一目的のポリシーとは異なり、しばしば矛盾する異なる目標間の好みを平衡させる必要があります。

📖

用語

ベクトル値関数

強化学習におけるQ値関数の拡張で、各状態-行動ペアが目的ごとに一つずつ値のベクトルに関連付けられます。この表現により、事前の集約を必要とせずに異なる目的間のトレードオフを捉えることができます。

📖

用語

重み付けスカラー化

各目的に重みを割り当てて線形的に組み合わせることで、多目的問題を単一目的問題に変換する手法。このアプローチにより、重みを変更することでパレートフロント上の様々な解を探索できます。

📖

用語

多目的DQN

多目的問題に適応させたディープQネットワークのアーキテクチャで、深層ニューラルネットワークを使用してベクトル値Q関数を近似します。ネットワークはトレードオフの一貫性を維持しながら、各目的の戻り値を同時に推定することを学習します。

📖

用語

ベクトル報酬

状態における各アクションが単一のスカラー値ではなく、報酬ベクトルを生成する報酬構造。ベクトルの各成分は問題の特定の目標に関する進捗に対応します。

📖

用語

多目的PPO

多目的環境に適応させた近接方策最適化アルゴリズムで、複数の目的関数を同時に最適化します。このアルゴリズムは目的間のトレードオフ空間を探索しながら、近接性制約を維持します。

📖

用語

目的間トレードオフ

ある目的の改善が必然的に他の目的の悪化を引き起こす際に、異なる目的間で必要となるトレードオフを記述する概念。トレードオフ分析はパレート最適解を特定するために不可欠です。

📖

用語

パレート最適方策の連続体

すべてがパレート最適であり、目的間の異なる好みを表す行動方策の連続集合。この連続体により、意思決定者は自身の優先順位に最も適した方策を選択できます。

📖

用語

多目的メタ学習

エージェントが一般的な適応戦略を発見することで、多目的問題を解決する方法を学習するアプローチ。メタ学習により、異なる問題間のトレードオフに関する知識を効率的に転送できます。

📖

用語

多目的ナッシュ均衡

多目的問題に適用されたゲーム理論の概念で、どのエージェントも他のエージェントに悪影響を与えることなく、ある目的での自己の立場を改善できない状態。この均衡は、多エージェント・多目的の文脈における安定した解を表します。

📖

用語

非線形集約

目的間の複雑な関係を捉えるために、線形重み付けではなく非線形関数を使用して目的を組み合わせる方法。これらのアプローチにより、より高度な選好と非加法的な相互作用をモデル化できます。

AI用語集