Aprendizagem por Reforço Multitarefa Offline
Eficiência de Dados Offline Multi-Tarefa
Medida da eficiência com que os dados em lote são usados para aprender múltiplas políticas em comparação com o aprendizado de tarefa única.
← Voltar