Aprendizagem por Reforço Multitarefa Offline
Modelo de Dinâmica Compartilhada
Modelo de transição único aprendido a partir de dados em lote multi-tarefa, capturando as dinâmicas comuns e específicas dos ambientes.
← Voltar