多目的Q学習 - AI用語集

📖

用語

Q-Learning Multi-Objectifs

Extension de l'algorithme Q-Learning traditionnel qui gère des vecteurs de récompenses au lieu de valeurs scalaires, permettant l'optimisation simultanée de plusieurs objectifs conflictuels.

📖

用語

Vecteur de Q-valeurs

Structure de données multi-dimensionnelle où chaque élément représente la valeur Q pour un objectif spécifique, remplaçant la valeur scalaire unique du Q-Learning classique.

📖

用語

Stratégie de résolution multi-objectifs où les objectifs sont ordonnés par priorité et optimisés séquentiellement, chaque objectif n'étant considéré qu'après l'optimisation complète des objectifs de priorité supérieure.

📖

用語

Compromis Multi-objectifs

Balance nécessaire entre l'amélioration de certains objectifs et la dégradation potentielle d'autres, inhérente aux problèmes d'optimisation avec objectifs conflictuels.

📖

用語

Q-valeur Pondérée

Combinaison linéaire des Q-valeurs individuelles de chaque objectif utilisant des poids spécifiques pour refléter l'importance relative de chaque objectif dans la décision finale.

📖

用語

Algorithme de Pareto Q-Learning

Variante du Q-Learning qui maintient un ensemble de politiques Pareto-optimales et apprend simultanément les Q-valeurs pour tous les compromis possibles entre objectifs.

📖

用語

Exploration Multi-objectifs

Stratégie d'exploration adaptée aux environnements multi-objectifs qui doit équilibrer la découverte de compromis entre différents objectifs tout en maintenant l'efficacité de l'apprentissage.

📖

用語

Équilibre de Nash en Q-Learning

Concept de théorie des jeux appliqué au Q-Learning multi-objectifs où aucune politique ne peut unilatéralement améliorer sa performance sur un objectif sans dégrader sa performance sur un autre.

📖

用語

目的の分解

複数の目的を持つ問題を、同時に最適化される複数の単一目的サブ問題に変換する技術で、パレートフロント上の多様なソリューションの発見を容易にします。

📖

用語

報酬ベクトル

各コンポーネントが特定の目的に関連する報酬に対応する多次元報酬ベクトルで、従来のスカラー報酬シグナルに取って代わります。

📖

用語

ポリシースペース適応

学習問題の多目的性によって導入される追加の複雑性を効果的に管理するための、方策空間の動的適応メカニズム。

AI用語集