Batch Constrained Q-learning (BCQ)
Оценка политики
Фаза оценки производительности политики с использованием только офлайн данных без взаимодействия с окружением. Этот этап критически важен для валидации обучения перед развертыванием.
← Назад