Deep RL Multi-Objetivos
Función de Valor Vectorial
Extensión de la función de valor Q en aprendizaje por refuerzo donde cada estado-acción está asociado con un vector de valores, uno por objetivo. Esta representación permite capturar los compromisos entre diferentes objetivos sin necesidad de agregación a priori.
← Volver