多目的方策 - AI用語集

📖

用語

多目的価値関数

各目的を個別に考慮した期待リターンを推定する古典的な価値関数のベクトル拡張。複数の基準に基づいて方策の性能を同時に評価可能にする。

📖

用語

均衡方策

時間と共に対立する複数の目的間で安定した妥協点を維持する意思決定戦略。目的間で対立する環境において持続可能な解を表す。

📖

用語

報酬ベクトル

各インタラクションステップで各目的の報酬値を含む多次元データ構造。MORLシステムにおけるフィードバックの基本的要素を構成する。

📖

用語

パレートフロンティア

目的間のすべての可能な最適なトレードオフを表す非支配解の完全な集合。多目的強化学習における候補解の空間を可視化する。

📖

用語

多目的確率的方策

異なる重みに基づいて複数の目的を同時に最適化する行動上の確率分布。意思決定時に目的間の多様なトレードオフの探索を可能にする。

📖

用語

重み付け超平面

スカラー化において各目的に与えられる相対的な重みを定義するベクトル部分空間。多目的空間における最適化の方向を決定する。

📖

用語

多目的行動空間

各行動が考慮される各目的に対して異なる影響を持つ構造。多基準決定の複雑さを管理するために特殊なアルゴリズムが必要。

📖

用語

スカラー化強化学習

異なるスカラー化を通じて多目的問題を一連の単一目的問題に変換するパラダイム。標準アルゴリズムを使用してパレート集合を発見することを可能にする。

📖

用語

多目的凸最適化

目的関数が凸である問題のクラスであり、最適解に対して強力な理論的性質を保証します。多目的ポリシーの収束と分析を容易にします。

📖

用語

ハイパーボリューム指標

解の集合が支配する目的空間の体積を測定する性能指標。多目的ポリシー集合の定量的比較を可能にします。

📖

用語

文脈付き多目的ポリシー

目的の重みが文脈または環境の状態に依存するアプローチ。遭遇する状況に応じてトレードオフの細かな調整を可能にします。

AI用語集