強化学習におけるモンテカルロ法
軌道サンプリング
与えられた方策に従って終端状態に達するまで完全なエピソードを生成するプロセスです。収集されたトラジェクトリ(軌道)は、状態価値または行動価値のモンテカルロ推定の基礎として使用されます。
← 戻る与えられた方策に従って終端状態に達するまで完全なエピソードを生成するプロセスです。収集されたトラジェクトリ(軌道)は、状態価値または行動価値のモンテカルロ推定の基礎として使用されます。
← 戻る