Batch Constrained Q-learning (BCQ)
モデルベース強化学習
オフラインデータから環境のダイナミクスのモデルを学習し、合成的な経験を生成するアプローチ。オフライン文脈では、誤差の伝播を避けるためにこのモデルは慎重に使用されなければならない。
← 戻るオフラインデータから環境のダイナミクスのモデルを学習し、合成的な経験を生成するアプローチ。オフライン文脈では、誤差の伝播を避けるためにこのモデルは慎重に使用されなければならない。
← 戻る