Otimização Evolutiva Multiobjetivo
Gradiente de Política Multiobjetivo
Método de aprendizagem por reforço que otimiza diretamente os parâmetros de política para maximizar um vetor de recompensas multiobjetivo utilizando técnicas de gradiente estocástico.
← Voltar