暗黙的Q学習（IQL）

📖

用語

暗黙の最大演算子

IQLにおける数学的技術で、行動分布に基づく保守的な上限を用いて、行動に対する直接的な最大値計算を回避する。

📖

用語

行動分布

オフラインデータセットにおける行動の確率分布で、IQLが使用する学習データを生成した方策を表す。

📖

用語

保守的損失関数

IQLにおける数学的目的で、学習の安定性を保証するため、行動分布外でのQ値の過大評価にペナルティを課す。

📖

用語

暗黙的Qターゲット推定

IQLのメカニズムで、行動分布に基づく条件付き期待値を使用して、明示的な最大化なしにターゲット値を計算する。

📖

用語

価値-方策分離

IQLの基本原理で、オフライン設定における最適化バイアスを回避するため、価値関数の学習と方策抽出を分離する。

📖

用語

オフライン学習期間

IQLが環境との相互作用なしに固定データセットのみを使用する学習段階で、安全性と計算効率を保証する。

📖

用語

重要度重み付きサンプリング

IQLで使用される技術で、行動分布とターゲット方策の間のずれを補正するため、サンプルを関連性に応じて重み付けする。

📖

用語

バッチ制約付き最適化

IQLにおける戦略で、信頼性のない外挿を回避するため、学習された行動をデータセットで観測された行動に近く保つように制約する。

📖

用語

オフライン分布バイアス

IQLにおける主要な課題で、限定的かつ偏ったデータが、保守的なメカニズムによって適切に管理されない場合、誤った推定につながる可能性がある。

📖

用語

暗黙的アドバンテージ関数

IQLの拡張機能で、明示的な最大化を行わずに行動の相対的利点を推定し、オフラインコンテキストにおけるより堅牢な行動選択を可能にする。

📖

用語

行動正則化

IQLにおけるメカニズムで、行動分布からの大幅な逸脱を罰し、安定性を維持し危険な行動を回避する。

📖

用語

暗黙的終了基準

IQLにおける学習収束を決定する方法で、明示的なパフォーマンス指標ではなくQ推定の安定性に基づく。

📖

用語

デモンストレーション経験

IQLが学習の唯一のソースとして使用する事前収集されたデータセットで、通常は専門家または既存のポリシーから得られる。

AI用語集