Batch Constrained Q-learning (BCQ)

📖

用語

バッチ制約付きQ学習（BCQ）

オフライン強化学習のアルゴリズムで、外挿誤差を回避するために、学習データセットで観測された行動に近い範囲に方策を制約する。BCQは、バッチ内の行動と類似した行動を生成するアクション生成モデルを使用しつつ、わずかなバリエーションを探索する。

📖

用語

分布シフト

学習された方策によって訪問される状態-行動の分布が、オフラインデータセットの分布と大きく異なる現象。このずれは、バイアスされた価値推定と、デプロイ時の性能低下を引き起こす可能性がある。

📖

用語

オフライン強化学習

エージェントが事前に収集された固定データセットからのみ学習し、環境との対話を行わない学習パラダイム。リアルタイムの探索が高コストまたは危険な場合に不可欠なアプローチである。

📖

用語

行動クローニング

報酬信号を使用せずに、実証データから専門家の行動を直接模倣する教師あり学習手法。シンプルであるが、デプロイ時に誤差の蓄積が連鎖的に発生する可能性がある。

📖

用語

暗黙的Q学習

分布外の行動の直接評価を回避することで、暗黙的にQ関数を学習する手法。IQLは、オフラインデータの不確実性をより適切に扱うために、期待値分位点学習問題として学習を定式化する。

📖

用語

分布外行動

学習された方策によって生成され、学習データセットで観測されなかった、またはほとんど観測されなかった行動。これらの行動は、その価値を信頼性高く推定できないため、オフラインRLにおいて主要なリスクとなる。

📖

用語

方策制約

学習された方策が、オフラインデータのバッチ内に存在する行動と類似した行動を生成するように制限するメカニズム。この制約は、ペナルティ、ダイバージェンス、または条件付き生成モデルを通じて実装できる。

📖

用語

摂動モデル

BCQの構成要素で、行動の周辺で局所的に行動空間を探索するために、行動周辺のバリエーションを生成する。このモデルは、観測された行動に制御されたノイズを加えつつ、その実行可能性を保証する。

📖

用語

価値関数推定

探索の欠如による潜在的なバイアスを考慮し、オフラインデータからQ値を推定するプロセス。現代の手法では、過剰最適化を避けるために保守的な過小評価技術を使用する。

📖

用語

バッチ強化学習

エージェントが固定された遷移のバッチを持ち、追加の相互作用なしで最適な方策を学習しなければならない強化学習の枠組み。この文脈は、発散を避けるためにアルゴリズムに特定の制約を課す。

📖

用語

安全性制約

生成された行動が状態行動空間の安全な領域内に留まることを保証するために、オフライン方策に課される制限。これらの制約は、ロボティクスや医療などの応用において重要である。

📖

用語

行動反復

データで観測された行動と類似した行動を繰り返すことで安定性を向上させる、オフライン強化学習で使用される戦略。この技術は、完全に新しい潜在的に危険な行動を生成するリスクを減らす。

📖

用語

不確実性推定

バッチ内で観測されなかった行動の価値推定に関連する不確実性の定量化。不確実性の正確な推定は、分布外の行動にペナルティを課し、堅牢性を向上させることを可能にする。

📖

用語

モデルベース強化学習

オフラインデータから環境のダイナミクスのモデルを学習し、合成的な経験を生成するアプローチ。オフライン文脈では、誤差の伝播を避けるためにこのモデルは慎重に使用されなければならない。

📖

用語

方策評価

環境との相互作用なしで、オフラインデータのみを使用して方策の性能を評価する段階。このステップは、展開前に学習を検証するために重要である。

📖

用語

方策改善

オフラインデータのバッチから計算された価値推定を使用して、方策を反復的に改善するプロセス。改善は、有効性を維持するために分布の制約を尊重しなければならない。

📖

用語

ブートストラップ誤差

ポリシーが自身の価値推定を用いて改善を行う際に蓄積される誤差で、データのサポートから逸脱する発散を引き起こす。オフライン手法では、このバイアスを制御するための特定の技術が用いられる。

AI用語集