AI用語集
人工知能の完全辞典
ポリシーグラディエント
期待リターンの勾配に従って方策のパラメータを調整する直接最適化手法で、環境モデルを必要とせずに確率的方策の学習を可能にする。
REINFORCEアルゴリズム
ポリシーグラディエントの基本的なアルゴリズムで、モンテカルロ勾配推定を使用して完全に観測されたエピソードに基づき方策のパラメータを更新する。
アクター-クリティック法
方策を学習するアクターと価値関数を推定するクリティックを組み合わせたハイブリッドアプローチで、方策勾配の推定の分散を低減する。
利得関数(アドバンテージ関数)
ある状態での平均的なアクションに対する特定のアクションの優越性を測定する指標で、Q関数とV関数の差として計算され、勾配の分散を低減する。
近接方策最適化(PPO)
更新が前のポリシーに近く保たれるように制約することでポリシーを最適化するアルゴリズムで、クリップされた目的関数を使用して学習の安定性を保証する。
信頼領域方策最適化(TRPO)
連続する方策間のKLダイバージェンスによって定義される信頼領域内で方策を最適化することで、パフォーマンスの単調な改善を保証する手法。
自然ポリシーグラディエント
フィッシャー情報量行列を使用してパラメータ化に対して不変な更新を行うポリシーグラディエントの変種で、より安定かつ効率的な収束を保証する。
方策ネットワーク
方策π(a|s; θ)を表現するパラメータ化されたニューラルネットワークで、現在の状態に条件付けられたアクションの確率分布を生成する。
モンテカルロ方策勾配法
完全な軌跡を使用してリターンを計算する勾配推定手法。バイアスのない推定を可能にするが、分散が高い。
ベースライン関数
リターンから減算され、バイアスを導入することなく勾配推定の分散を低減する関数。通常は状態価値関数が使用される。
重要度サンプリング
古い方策で収集されたデータを使用して新しい方策を更新する手法。方策の確率比に基づいてサンプルを重み付けする。
エントロピー正則化
目的関数にエントロピー項を追加し、過度に決定的な方策をペナルティすることで探索を促進し、学習の頑健性を向上させる手法。
決定的方策勾配法
連続行動空間における方策勾配の拡張。方策が決定的であり、高次元環境で特に効果的。
確率的方策
行動上の確率分布π(a|s)で表現される方策。内在的な探索を可能にし、方策勾配法に不可欠。
KLダイバージェンス制約
連続する方策間のカルバック・ライブラーダイバージェンスを制限し、安定した更新を保証し、行動の劇的な変化を避ける制約。
一般化アドバンテージ推定(GAE)
複数ステップ推定器の加重平均を使用してバイアスと分散を組み合わせるアドバンテージ推定手法。学習に最適なトレードオフを提供する。
方策勾配定理
期待リターンの政策パラメータに関する勾配の解析的表現を提供し、これらの手法の理論的基礎を定式化する基本的定理。
リターン・トゥ・ゴー
特定のタイムステップからの割引将来報酬の合計で、方策勾配アルゴリズムにおける勾配の推定値として使用される。