Deep RL Multi-Objectifs
Fonction de Valeur Vectorielle
Extension de la fonction de valeur Q en apprentissage par renforcement où chaque état-action est associé à un vecteur de valeurs, une par objectif. Cette représentation permet de capturer les compromis entre différents objectifs sans nécessiter d'agrégation a priori.
← 뒤로