Batch Constrained Q-learning (BCQ)
暗黙的Q学習
分布外の行動の直接評価を回避することで、暗黙的にQ関数を学習する手法。IQLは、オフラインデータの不確実性をより適切に扱うために、期待値分位点学習問題として学習を定式化する。
← 戻る分布外の行動の直接評価を回避することで、暗黙的にQ関数を学習する手法。IQLは、オフラインデータの不確実性をより適切に扱うために、期待値分位点学習問題として学習を定式化する。
← 戻る