Planificación por Aprendizaje por Refuerzo
Moldeado de Recompensa (Reward Shaping)
Técnica de diseño de recompensas que modifica la función de recompensa original para guiar más eficazmente al agente hacia comportamientos de planificación deseables.
← Volver