Batch Constrained Q-learning (BCQ)
バッチ強化学習
エージェントが固定された遷移のバッチを持ち、追加の相互作用なしで最適な方策を学習しなければならない強化学習の枠組み。この文脈は、発散を避けるためにアルゴリズムに特定の制約を課す。
← 戻るエージェントが固定された遷移のバッチを持ち、追加の相互作用なしで最適な方策を学習しなければならない強化学習の枠組み。この文脈は、発散を避けるためにアルゴリズムに特定の制約を課す。
← 戻る