近接方策最適化 (PPO)

📖

用語

クリッピング機能

PPOのメカニズムで、新しい方策と古い方策の確率比をクリッピングすることによって、方策の更新範囲を制限し、極端な変更を避けるものです。

📖

用語

信頼領域

方策空間内の信頼できる領域で、連続する方策間のKLダイバージェンスに対する制約によって定義され、更新が安全であると見なされます。

📖

用語

代理目的関数

PPOで使用される修正された目的関数で、クリッピングのような安定性制約を組み込みながら元の目的関数を近似し、パフォーマンスの劣化を防ぎます。

📖

用語

KLダイバージェンスペナルティ

連続する方策間の分岐を制御するためにPPOの目的関数に追加されるペナルティで、更新を許容可能な範囲内に保つように適応的に調整されます。

📖

用語

ミニバッチ更新

収集されたデータを小さなバッチに分割して複数の勾配パスを実行するPPOの最適化プロセスで、計算効率と安定性を向上させます。

📖

用語

クリップ範囲パラメータ

PPOのハイパーパラメータイプシロンで、確率比のクリッピング領域の幅を定義し、方策の更新の保守性を直接制御します。

📖

用語

価値関数クリッピング

PPOの変種で、学習を安定化させ価値推定の大きな変動を防ぐために、価値関数にもクリッピングを適用します。

📖

用語

エポック最適化

同じ経験データを複数の最適化パスで再利用するPPOのプロセスで、収集されたデータの利用率を向上させます。

📖

用語

正規化されたアドバンテージ

アドバンテージ推定値を正規化する技術で、更新間で勾配のスケールを一貫性を持たせることで学習を安定化させます。

📖

用語

経験収集

PPOにおいて、エージェントが現在の方策に従って環境と対話し、最適化のために使用される遷移（状態、行動、報酬）を収集するフェーズです。

📖

用語

適応的KLペナルティ

PPOの変種で、観測された方策間のKLダイバージェンスに基づいてKLペナルティの強度を動的に調整し、制御された更新を保証します。

AI用語集