モデルベースオフライン強化学習

📖

用語

モデルベースオフライン強化学習

環境の動的モデルを学習し、合成データを生成して実際の相互作用なしに方策を改善するオフライン強化学習のアプローチ

📖

用語

想像ロールアウト

学習した環境モデルを使用して、実際の環境との相互作用なしに潜在的な将来状態を探索するために生成されるシミュレートされた軌跡

📖

用語

保守的方策最適化

外挿誤差を回避するために、学習データの行動から大きく逸脱する方策を明示的に罰するアルゴリズム

📖

用語

不確実性定量化

分布外領域における動的モデルの不確実性を推定し、探索を導き、致命的な誤りを回避する技術

📖

用語

アンサンブルモデル

予測の分散によって認識論的不確実性を推定するために、異なる初期化で訓練された複数の動的モデルの集合

📖

用語

軌跡トランスフォーマー

状態、行動、報酬のシーケンスとして軌跡をモデル化し、オフライン学習における将来の遷移を予測するトランスフォーマーアーキテクチャ

📖

用語

オフラインからオンラインへの転移

オフラインで学習した方策をオンライン環境に転移させ、実際の相互作用による継続的な微調整と適応を行うプロセス

📖

用語

モデルアンサンブリング

状態遷移に関する異なる仮説を捉え、予測の堅牢性を向上させるために複数の動的モデルを使用する技術

📖

用語

アドバンテージ重み付き回帰

単なる模倣を超えてポリシーを改善するために、学習データ内の行動を推定されたアドバンテージに基づいて重み付けするオフライン手法。

📖

用語

分布外検出

モデルによって生成された状態が元の学習データの分布から有意に逸脱している場合を特定するメカニズム。

AI用語集