オフライン・マルチタスク強化学習

📖

用語

オフライン多タスク強化学習

複数の異なるタスクに対する方策を、環境との相互作用なしに固定されたバッチデータセットから同時に学習するパラダイム。

📖

用語

バッチ多タスク学習

エージェントが事前収集されたデータのみを使用して複数のタスクを解決するアプローチ。トレーニング中のオンライン探索は行わない。

📖

用語

共有データセット方策最適化

タスク間の学習効率を向上させるために、共通の経験データプールを使用して複数の方策を最適化する技術。

📖

用語

タスク非依存表現学習

将来のタスクに関する特定の知識なしに、バッチデータから一般化可能な状態-行動表現を学習するプロセス。

📖

用語

保守的多タスク方策最適化

マルチタスク方策がバッチデータセットで観測された行動から大きく逸脱せず、サポート外分布を回避することを保証する方法。

📖

用語

多タスクバッチ制約Q学習

BCQをマルチタスクコンテキストに拡張した手法。Q関数がバッチデータによって制約されながら、タスク間で知識を共有する。

📖

用語

多タスク分布強化学習

オフライン多タスクコンテキストにおいて、各タスクのリターンの期待値ではなく完全な分布をモデル化するフレームワーク。

📖

用語

オフライン多タスクメタ学習

バッチ多タスクデータセットからメタ知識を学習し、少ないデータで新しいタスクに迅速に適応できるようにする学習方法。

📖

用語

タスクデカップリング

オフライン多タスク学習を最適化するために、タスク固有の表現と共有知識を分離する技術

📖

用語

多タスクオフライン評価指標

インタラクションなしで多タスクポリシーの性能を評価する特定の測定基準。例：多タスクFQEや重み付き重要度サンプリング

📖

用語

タスク固有ポリシーヘッド

オフライン多タスク学習において、共有バックボーンと各タスク用の個別出力ヘッドを持つネットワークアーキテクチャ

📖

用語

多タスクオフラインデータ効率

バッチデータが単一タスク学習と比較して、複数ポリシーを学習するためにどの程度効率的に使用されるかの測定

📖

用語

クロスタスク知識転送

共有バッチデータセットからの学習中に、異なるタスク間で有用な知識を自動的に転送するプロセス

📖

用語

多タスクオフライン価値関数分解

オフライン多タスク学習を改善するために、価値関数を共有コンポーネントとタスク固有コンポーネントに分解すること

📖

用語

オフライン設定におけるタスククラスタリング

知識共有とリソース割り当てを最適化するために、バッチデータに基づいて類似タスクを自動的にグループ化すること

📖

用語

多タスクオフライン探索と利用

既存データの使用と制御された外挿のバランスを複数タスクに対して管理する、オフラインコンテキストに適応したジレンマ

📖

用語

共有ダイナミクスモデル

マルチタスクバッチデータから学習された単一の遷移モデルで、環境の共通および特定のダイナミクスを捉える。

📖

用語

マルチタスクオフラインカリキュラム学習

オフライン学習中に、タスクの難易度と相互依存性に基づいてタスクを自動的に順序付けし、学習を最適化する。

AI用語集