Aprendizagem Q Implícita (IQL)
Otimização com Restrição de Lote
Estratégia em IQL que restringe as ações aprendidas a permanecerem próximas às observadas no conjunto de dados para evitar extrapolações não confiáveis.
← Voltar