Batch Constrained Q-learning (BCQ)
Оценка неопределенности
Количественная оценка неопределенности, связанной с оценками ценности действий, не наблюдаемых в пакете. Точная оценка неопределенности позволяет штрафовать действия вне распределения и улучшать робастность.
← Назад