軌道予測による学習

📖

用語

多段階軌道予測

実際の実行前に、行動の長期的な結果を評価するために、複数の時間ステップにわたって未来の状態の連続シーケンスを予測する技術。

📖

用語

モンテカルロ探索木

特定の状態から可能な未来の軌道を評価するためにランダムシミュレーションを使用し、行動選択を最適化する木構造探索アルゴリズム。

📖

用語

事前計画

実際の環境との対話の前に、学習モデルを使用して将来の行動を順次評価し、最適なポリシーを選択するプロセス。

📖

用語

環境動力学モデル

エージェントの行動の結果を正確に予測するために、環境の物理法則と状態変化を捉えるように訓練されたニューラルネットワーク。

📖

用語

モデル想像

物理的な対話なしに、内部モデルを使用して代替シナリオや軌道を精神的に生成するシステムの能力。

📖

用語

事前ロールアウト

学習モデルを使用して初期状態から行動シーケンス全体をシミュレートし、期待される累積報酬を評価すること。

📖

用語

仮想試行学習

エージェントが環境との直接対話ではなく、主に内部モデルでのシミュレートされた経験を通じて改善するパラダイム。

📖

用語

軌道生成モデル

決定論的予測ではなく可能な軌道の分布を生成し、環境の確率的性質を捉える深層学習アーキテクチャ。

📖

用語

シミュレーションによる探索

エージェントがモデル内で大量のシナリオをシミュレーションすることにより新しいポリシーを発見し、最も有望なものを現実でテストする前の探索戦略。

📖

用語

状態-行動予測

現在の状態s(t)と行動a(t)に基づいて次の状態s(t+1)を直接予測するモデルで、基本の遷移方程式を形成する。

📖

用語

仮想経験バッファ

モデルが生成したシミュレーション軌道を訓練用に保存するデータ構造で、環境で収集された実際の経験を補完する。

📖

用語

グローバルモデル学習

単一のモデルが環境の完全な動力学を学習し、すべてのタスクとポリシー間で共有することで、より良い汎化を実現するアプローチ。

📖

用語

軌道予測ネットワーク

将来の状態シーケンスを予測することに特化したニューラルアーキテクチャで、時間的依存関係を捉えるためによくRNNやTransformerに基づいている。

📖

用語

モデル検証

シミュレーション軌道の信頼性を保証するため、ホールドアウトデータでモデルの予測精度を体系的に評価するプロセス。

📖

用語

反実仮想生成

異なる決定の影響を理解し、モデルの因果的認識を向上させるため、仮説的な代替軌道を作成する技術。

AI用語集