Batch Constrained Q-learning (BCQ)
Offline Reinforcement Learning
Paradigma de aprendizagem onde o agente aprende exclusivamente a partir de um conjunto fixo de dados previamente coletados, sem interação com o ambiente. Esta abordagem é essencial quando a exploração em tempo real é cara ou perigosa.
← Voltar