Meta-Aprendizagem por Reforço
Gradiente de Meta-Política
Algoritmo de otimização que calcula os gradientes em relação aos meta-parâmetros para melhorar o desempenho esperado na distribuição das tarefas.
← Voltar