Batch Constrained Q-learning (BCQ)
Implicit Q-learning
Método que aprende a função Q de forma implícita, evitando a avaliação direta de ações fora de distribuição. O IQL formula a aprendizagem como um problema de aprendizagem por expectile para melhor gerir a incerteza nos dados offline.
← Voltar