Batch Constrained Q-learning (BCQ)
Оценка функции ценности
Процесс оценки Q-значений из офлайн данных с учетом потенциального смещения из-за отсутствия исследования. Современные методы используют методы консервативного недооценивания для избежания сверхоптимизации.
← Назад