AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
アクター・クリティック
強化学習アーキテクチャで、確率的方策を学習するアクターネットワークと、方策勾配の分散を低減するために価値関数を推定するクリティックネットワークを組み合わせたもの。
用語
価値関数
状態または状態-行動ペアから期待される累積報酬を推定する数学的関数で、アクター・クリティックアーキテクチャにおけるクリティックの学習シグナルとして機能する。
用語
非同期Advantage Actor-Critic
複数のエージェントが独立した環境で並列学習し、定期的に勾配を共有して学習を加速させる分散アーキテクチャ。
用語
深層決定論的方策勾配法
連続行動空間のためのアクター・クリティックアルゴリズムで、決定論的方策とリプレイバッファを持つ深層ニューラルネットワークを使用し、安定したオフポリシー学習を実現する。
用語
ツインディレイド深層決定論的方策勾配法
DDPGの改良版で、価値の過大評価を低減するために2つのクリティック(ツイン)を使用し、より良い安定性のためにアクターとターゲットの更新を遅延させる。
用語
ソフトアクター・クリティック
探索を奨励するために報酬とエントロピーを組み合わせたエントロピー報酬を最大化するアクター・クリティックアルゴリズムで、安定かつ効率的なオフポリシー更新を使用する。
用語
Advantage Actor-Critic
A3Cの同期変種で、アドバンテージ推定を使用して方策勾配の分散を低減し、GPUでのより良い安定性のためにバッチ更新を使用する。
用語
クリティックネットワーク
価値関数V(s)またはQ(s,a)を推定するニューラルネットワークで、アクターにTD学習シグナルを提供し、予測誤差を最適化勾配として使用する。
🔍