Aprendizagem Q Implícita (IQL)
Função de Vantagem Implícita
Uma extensão do IQL que estima as vantagens relativas das ações sem maximização explícita, permitindo uma seleção de ações mais robusta em contextos offline.
← Voltar