強化学習による計画

📖

用語

計画ポリシー (Planning Policy)

環境の各状態を特定のアクションにマッピングし、エージェントが最適な計画目標を達成するための振る舞いを定義する機能または戦略。

📖

用語

報酬整形 (Reward Shaping)

エージェントを望ましい計画行動へより効果的に誘導するために、元の報酬関数を修正する報酬設計技術。

📖

用語

階層的RL計画 (Hierarchical RL Planning)

計画ポリシーをサブタスクまたはサブポリシーの階層に分解し、複雑な計画問題をより効率的に解決するアプローチ。

📖

用語

計画のためのメタ学習 (Meta-Learning for Planning)

新しい環境や計画目標に迅速に適応できる適応的計画ポリシーを学習することを学習するパラダイム。

📖

用語

マルチエージェントRL計画 (Multi-Agent RL Planning)

複数のエージェントが同時に計画ポリシーを学習するシナリオへのRLの拡張で、エージェント間の相互作用と協力/競合を考慮する必要がある。

📖

用語

堅牢なRL計画 (Robust RL Planning)

環境または動力学モデルの不確実性や変化に対してパフォーマンスを維持する計画ポリシーを学習するアプローチ。

📖

用語

RL計画における転移学習 (Transfer Learning in RL Planning)

ある計画コンテキストで学習した知識やポリシーを再利用して、類似の新しいコンテキストでの学習を加速する技術。

📖

用語

制約付きRL計画 (Constrained RL Planning)

エージェントがセキュリティ、リソース、またはドメイン固有のその他の制約を尊重しながら、計画ポリシーを最適化する必要があるRLの定式化。

📖

用語

モデルベース強化学習（Model-Based RL）

エージェントが環境の動力学の明示的なモデルを学習または使用して、計画と意思決定を改善するアプローチ。モデルフリーRLとは対照的です。

📖

用語

連続RLプランニング（Continuous RL Planning）

状態と行動の空間が連続的な計画問題に特化したRLで、アクター批判家などの特定の近似技術が必要です。

📖

用語

計画エピソード（Planning Episode）

エージェントと環境の初期状態から最終状態までの完全な相互作用シーケンスで、計画方策の学習単位を構成します。

📖

用語

模倣学習によるRLプランニング（Imitation Learning for RL Planning）

エージェントが専門家のデモンストレーションを模倣することで計画方策を学習する方法で、強化学習の初期化やガイドによく使用されます。

📖

用語

RLによる方策最適化（Policy Optimization）

期待される報酬を最大化するために計画方策のパラメータを直接最適化するRLアルゴリズムのクラスで、REINFORCEやPPOなどの手法が含まれます。

AI用語集