想像による学習
想像された軌跡
エージェントが環境の内部モデルを使用してシミュレートした状態-アクション-報酬のシーケンス。これらの仮想的軌道により、実際のリスクやコストなしで代替ポリシーを探索できる。
← 戻るエージェントが環境の内部モデルを使用してシミュレートした状態-アクション-報酬のシーケンス。これらの仮想的軌道により、実際のリスクやコストなしで代替ポリシーを探索できる。
← 戻る