Batch Constrained Q-learning (BCQ)
RL Baseado em Modelo
Abordagem que aprende um modelo da dinâmica do ambiente a partir de dados offline para gerar experiências sintéticas. No contexto offline, este modelo deve ser usado com cautela para evitar a propagação de erros.
← Voltar