Aprendizagem por Reforço Multitarefa Offline
Otimização de Política Multi-Tarefa Conservadora
Método que garante que as políticas multi-tarefas não se desviem significativamente do comportamento observado no conjunto de dados em lote para evitar distribuições de saída fora do suporte.
← Voltar