Aprendizaje por Refuerzo Jerárquico Multi-Objetivo
Descomposición de la Función de Valor
Técnica que descompone la función de valor global en contribuciones de cada subtarea y objetivo, facilitando el aprendizaje distribuido en jerarquías.
← Volver