Batch Constrained Q-learning (BCQ)
価値関数推定
探索の欠如による潜在的なバイアスを考慮し、オフラインデータからQ値を推定するプロセス。現代の手法では、過剰最適化を避けるために保守的な過小評価技術を使用する。
← 戻る探索の欠如による潜在的なバイアスを考慮し、オフラインデータからQ値を推定するプロセス。現代の手法では、過剰最適化を避けるために保守的な過小評価技術を使用する。
← 戻る