AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
Asynchronous Advantage Actor-Critic (A3C)
複数のエージェントが環境のコピー上で並列に訓練を行い、無相関な軌跡をサンプリングして収束を加速させる分散アーキテクチャ。
用語
Soft Actor-Critic (SAC)
期待報酬とポリシーのエントロピーに基づいて最大化を行うオフポリシーアルゴリズムであり、探索を促進し、ハイパーパラメータ設定に対する堅牢性を高める。
用語
Deep Deterministic Policy Gradient (DDPG)
DQNとActor-Criticを組み合わせ、ターゲットネットワークと決定的なポリシーを使用する、連続行動空間向けのオフポリシーアルゴリズム。
用語
Twin Delayed DDPG (TD3)
過大評価バイアスを低減するために2つのクリティックネットワークを使用し、安定性を高めるためにアクターの更新を遅らせることで、DDPGを改良したもの。
用語
Munchausen-RL
ミュンヒハウゼン・アルゴリズムに着想を得て、Q更新に対数エントロピー項を導入したアルゴリズムで、探索と安定性を向上させる。
🔍