アクター・クリティック手法

📖

用語

強化学習アーキテクチャで、確率的方策を学習するアクターネットワークと、方策勾配の分散を低減するために価値関数を推定するクリティックネットワークを組み合わせたもの。

📖

用語

状態または状態-行動ペアから期待される累積報酬を推定する数学的関数で、アクター・クリティックアーキテクチャにおけるクリティックの学習シグナルとして機能する。

📖

用語

複数のエージェントが独立した環境で並列学習し、定期的に勾配を共有して学習を加速させる分散アーキテクチャ。

📖

用語

連続行動空間のためのアクター・クリティックアルゴリズムで、決定論的方策とリプレイバッファを持つ深層ニューラルネットワークを使用し、安定したオフポリシー学習を実現する。

📖

用語

DDPGの改良版で、価値の過大評価を低減するために2つのクリティック（ツイン）を使用し、より良い安定性のためにアクターとターゲットの更新を遅延させる。

📖

用語

探索を奨励するために報酬とエントロピーを組み合わせたエントロピー報酬を最大化するアクター・クリティックアルゴリズムで、安定かつ効率的なオフポリシー更新を使用する。

📖

用語

A3Cの同期変種で、アドバンテージ推定を使用して方策勾配の分散を低減し、GPUでのより良い安定性のためにバッチ更新を使用する。

📖

用語

価値関数V(s)またはQ(s,a)を推定するニューラルネットワークで、アクターにTD学習シグナルを提供し、予測誤差を最適化勾配として使用する。

AI用語集