Conservative Q-Learning (CQL)
Correção de distribuição
Mecanismo no CQL que ajusta as estimativas Q para corrigir o desvio entre a distribuição comportamental e a distribuição da política alvo.
← Voltar