Q-Learning Multi-Objectifs

📖

termes

Q-Learning Multi-Objectifs

Extension de l'algorithme Q-Learning traditionnel qui gère des vecteurs de récompenses au lieu de valeurs scalaires, permettant l'optimisation simultanée de plusieurs objectifs conflictuels.

📖

termes

Vecteur de Q-valeurs

Structure de données multi-dimensionnelle où chaque élément représente la valeur Q pour un objectif spécifique, remplaçant la valeur scalaire unique du Q-Learning classique.

📖

termes

Stratégie de résolution multi-objectifs où les objectifs sont ordonnés par priorité et optimisés séquentiellement, chaque objectif n'étant considéré qu'après l'optimisation complète des objectifs de priorité supérieure.

📖

termes

Compromis Multi-objectifs

Balance nécessaire entre l'amélioration de certains objectifs et la dégradation potentielle d'autres, inhérente aux problèmes d'optimisation avec objectifs conflictuels.

📖

termes

Q-valeur Pondérée

Combinaison linéaire des Q-valeurs individuelles de chaque objectif utilisant des poids spécifiques pour refléter l'importance relative de chaque objectif dans la décision finale.

📖

termes

Algorithme de Pareto Q-Learning

Variante du Q-Learning qui maintient un ensemble de politiques Pareto-optimales et apprend simultanément les Q-valeurs pour tous les compromis possibles entre objectifs.

📖

termes

Exploration Multi-objectifs

Stratégie d'exploration adaptée aux environnements multi-objectifs qui doit équilibrer la découverte de compromis entre différents objectifs tout en maintenant l'efficacité de l'apprentissage.

📖

termes

Équilibre de Nash en Q-Learning

Concept de théorie des jeux appliqué au Q-Learning multi-objectifs où aucune politique ne peut unilatéralement améliorer sa performance sur un objectif sans dégrader sa performance sur un autre.

📖

termes

Décomposition des Objectifs

Technique transformant un problème multi-objectifs en plusieurs sous-problèmes mono-objectifs optimisés simultanément, facilitant la découverte de solutions diversifiées sur le front de Pareto.

📖

termes

Reward Vector

Vecteur de récompenses multidimensionnel où chaque composant correspond à la récompense associée à un objectif spécifique, remplaçant le signal de récompense scalaire traditionnel.

📖

termes

Policy Space Adaptation

Mécanisme d'adaptation dynamique de l'espace des politiques pour gérer efficacement la complexité additionnelle introduite par la nature multi-objectifs du problème d'apprentissage.

Glossaire IA