Batch Constrained Q-learning (BCQ)
Avaliação de Política
Fase de avaliação do desempenho de uma política utilizando apenas dados offline, sem interação com o ambiente. Esta etapa é crucial para validar as aprendizagens antes da implantação.
← Voltar