Q-Learning Multiobjetivo
Vector de Recompensa
Vector de recompensas multidimensional donde cada componente corresponde a la recompensa asociada a un objetivo específico, reemplazando la señal de recompensa escalar tradicional.
← Volver