アクター・クリティック手法
アクター・クリティック
強化学習アーキテクチャで、確率的方策を学習するアクターネットワークと、方策勾配の分散を低減するために価値関数を推定するクリティックネットワークを組み合わせたもの。
← 戻る強化学習アーキテクチャで、確率的方策を学習するアクターネットワークと、方策勾配の分散を低減するために価値関数を推定するクリティックネットワークを組み合わせたもの。
← 戻る