Batch Constrained Q-learning (BCQ)
Пакетное обучение с подкреплением
Фреймворк обучения с подкреплением, где агент имеет фиксированный пакет переходов и должен изучать оптимальную политику без дополнительных взаимодействий. Этот контекст накладывает специфические ограничения на алгоритмы для избежания расходимости.
← Назад