Deep RL Multi-Objetivos
Recompensa Vectorial
Estructura de recompensa donde cada acción en un estado genera un vector de recompensas en lugar de un único valor escalar. Cada componente del vector corresponde al progreso en un objetivo específico del problema.
← Volver