Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Q-Learning Multi-Objectifs
Extension de l'algorithme Q-Learning traditionnel qui gère des vecteurs de récompenses au lieu de valeurs scalaires, permettant l'optimisation simultanée de plusieurs objectifs conflictuels.
Vecteur de Q-valeurs
Structure de données multi-dimensionnelle où chaque élément représente la valeur Q pour un objectif spécifique, remplaçant la valeur scalaire unique du Q-Learning classique.
Approche Lexicographique
Stratégie de résolution multi-objectifs où les objectifs sont ordonnés par priorité et optimisés séquentiellement, chaque objectif n'étant considéré qu'après l'optimisation complète des objectifs de priorité supérieure.
Compromis Multi-objectifs
Balance nécessaire entre l'amélioration de certains objectifs et la dégradation potentielle d'autres, inhérente aux problèmes d'optimisation avec objectifs conflictuels.
Q-valeur Pondérée
Combinaison linéaire des Q-valeurs individuelles de chaque objectif utilisant des poids spécifiques pour refléter l'importance relative de chaque objectif dans la décision finale.
Algorithme de Pareto Q-Learning
Variante du Q-Learning qui maintient un ensemble de politiques Pareto-optimales et apprend simultanément les Q-valeurs pour tous les compromis possibles entre objectifs.
Exploration Multi-objectifs
Stratégie d'exploration adaptée aux environnements multi-objectifs qui doit équilibrer la découverte de compromis entre différents objectifs tout en maintenant l'efficacité de l'apprentissage.
Équilibre de Nash en Q-Learning
Concept de théorie des jeux appliqué au Q-Learning multi-objectifs où aucune politique ne peut unilatéralement améliorer sa performance sur un objectif sans dégrader sa performance sur un autre.
Décomposition des Objectifs
Technique transformant un problème multi-objectifs en plusieurs sous-problèmes mono-objectifs optimisés simultanément, facilitant la découverte de solutions diversifiées sur le front de Pareto.
Reward Vector
Vecteur de récompenses multidimensionnel où chaque composant correspond à la récompense associée à un objectif spécifique, remplaçant le signal de récompense scalaire traditionnel.
Policy Space Adaptation
Mécanisme d'adaptation dynamique de l'espace des politiques pour gérer efficacement la complexité additionnelle introduite par la nature multi-objectifs du problème d'apprentissage.