強化学習におけるモンテカルロ法

📖

用語

初回訪問モンテカルロ法

エピソード内で各状態が初めて訪問された後の収益のみを平均化して状態価値を推定する手法。このアプローチは、Every-Visit MCよりも分散が低くなる可能性があり、真の状態価値への収束を保証する。

📖

用語

全訪問モンテカルロ法

エピソード内で各状態が訪問されるたびに状態価値を更新するアルゴリズム（初回のみではない）。この手法はより頻繁な更新を提供し、First-Visit MCと同じ理論値に収束する。

📖

用語

探索的開始

すべての状態-行動ペアがエピソードの開始点として選ばれる確率がゼロではないことを保証する仮定。この条件は、MC制御法の収束に必要な十分な探索を保証する。

📖

用語

モンテカルロ制御

方策評価と方策改善の反復を通じて最適方策を学習するために、モンテカルロ推定を使用するアルゴリズムのクラス。これらの手法は環境の完全なモデルを必要としない。

📖

用語

オフポリシーモンテカルロ

学習される方策（ターゲット方策）が、データの生成に使用される方策（振る舞い方策）と異なる学習アプローチ。この分離により、専門家のデータや過去の経験から学習することが可能になる。

📖

用語

重み付き重要度サンプリング

通常の重要度サンプリングと比較して分散を低減するために、正規化された重みを使用する重要度サンプリングの変種。重みは合計で除算され、バイアスがあるが分散が低い加重平均が形成される。

📖

用語

GLIEアルゴリズム

無限の探索を伴う極限において貪欲（Greedy In the Limit with Infinite Exploration）である探索戦略であり、最適方策への漸近的収束を保証する。探索は徐々に減少し、活用は時間の経過とともに増加する。

📖

用語

モンテカルロES

すべての状態-行動ペアの探索を保証するために「探索的開始（Exploring Starts）」を使用するモンテカルロ制御アルゴリズム。行動価値の推定値を維持し、方策を最適性に向けて反復的に改善する。

📖

用語

リターンの割引

MC法におけるリターンの計算方法であり、将来の報酬に割引係数ガンマを適用することで、即時の報酬をより重視します。リターンとは、ガンマの累乗で重み付けられた将来の報酬の総和です。

📖

用語

軌道サンプリング

与えられた方策に従って終端状態に達するまで完全なエピソードを生成するプロセスです。収集されたトラジェクトリ（軌道）は、状態価値または行動価値のモンテカルロ推定の基礎として使用されます。

📖

用語

増分モンテカルロ更新

学習率アルファを用いた移動平均により、モンテカルロの価値推定を効率的に更新する手法です。このアプローチにより、収束の保証を維持しつつ、過去のすべてのリターンを保存する必要がなくなります。

📖

用語

モンテカルロ方策評価

完全なエピソードをサンプリングし、観測されたリターンを平均することで、方策の価値関数を推定するプロセスです。DP（動的計画法）とは異なり、この手法は環境のダイナミクスに関する知識を必要としません。

📖

用語

確率的方策の推定

行動が確率に従って選択される確率的方策の価値を推定するために、モンテカルロ法を用いることです。推定を行う際には、リターンの計算において行動の確率分布を考慮する必要があります。

📖

用語

ブートストラップを用いない手法

TD法とは異なり、更新時に価値推定値を使用しないモンテカルロ法の特徴的な性質です。ブートストラップを行わないことで、ある種のバイアスは排除されますが、分散が増加する可能性があります。

AI用語集