Optimización Evolutiva Multi-Objetivo
Policy Gradient Multi-Objetivo
Método de aprendizaje por refuerzo que optimiza directamente los parámetros de política para maximizar un vector de recompensas multi-objetivo utilizando técnicas de gradiente estocástico.
← Volver