Batch Constrained Q-learning (BCQ)
Estimativa da Função de Valor
Processo de estimar valores Q a partir de dados offline, considerando o viés potencial devido à ausência de exploração. Métodos modernos utilizam técnicas de subestimação conservadora para evitar a superotimização.
← Voltar