Deep RL Multi-Objectifs - Yapay Zeka Sözlüğü

📖

terimler

Politique d'Action Multi-Objectifs

Stratégie qui mappe les états à des actions en considérant simultanément plusieurs objectifs. Contrairement aux politiques traditionnelles mono-objectifs, elle doit équilibrer les préférences entre différents buts souvent contradictoires.

📖

terimler

Fonction de Valeur Vectorielle

Extension de la fonction de valeur Q en apprentissage par renforcement où chaque état-action est associé à un vecteur de valeurs, une par objectif. Cette représentation permet de capturer les compromis entre différents objectifs sans nécessiter d'agrégation a priori.

📖

terimler

Scalarisation Pondérée

Technique de transformation d'un problème multi-objectifs en problème mono-objectif en assignant des poids à chaque objectif et en les combinant linéairement. Cette approche permet d'explorer différentes solutions sur le front de Pareto en modifiant les poids.

📖

terimler

DQN Multi-Objectifs

Architecture de Deep Q-Network adaptée aux problèmes multi-objectifs utilisant des réseaux de neurones profonds pour approximer les fonctions Q-vectorielles. Le réseau apprend à estimer simultanément les valeurs de retour pour chaque objectif tout en maintenant la cohérence des compromis.

📖

terimler

Récompense Vectorielle

Structure de récompense où chaque action dans un état génère un vecteur de récompenses plutôt qu'une valeur scalaire unique. Chaque composante du vecteur correspond à la progression sur un objectif spécifique du problème.

📖

terimler

PPO Multi-Objectifs

Adaptation de l'algorithme Proximal Policy Optimization pour les environnements multi-objectifs, optimisant simultanément plusieurs fonctions objectif. L'algorithme maintient des contraintes de proximité tout en explorant l'espace des compromis entre objectifs.

📖

terimler

Trade-off Objectifs

Concept décrivant les compromis nécessaires entre différents objectifs lorsque l'amélioration d'un objectif entraîne nécessairement la dégradation d'un autre. L'analyse des trade-offs est essentielle pour identifier les solutions Pareto-optimales.

📖

terimler

Continuum de Politiques Pareto-Optimales

Ensemble continu de politiques d'action qui sont toutes Pareto-optimales, représentant différentes préférences entre les objectifs. Ce continuum permet aux décideurs de sélectionner la politique correspondant le mieux à leurs priorités.

📖

terimler

Méta-apprentissage Multi-Objectifs

Approche où l'agent apprend à apprendre à résoudre des problèmes multi-objectifs en découvrant des stratégies d'adaptation générales. Le méta-apprentissage permet de transférer efficacement les connaissances sur les compromis entre différents problèmes.

📖

terimler

Équilibre de Nash Multi-Objectifs

Concept de théorie des jeux appliqué aux problèmes multi-objectifs où aucun agent ne peut améliorer sa position sur un objectif sans que cela n'affecte négativement les autres. L'équilibre représente une solution stable dans un contexte multi-agents multi-objectifs.

📖

terimler

Agrégation Non-Linéaire

Méthodes de combinaison des objectifs utilisant des fonctions non-linéaires plutôt que des pondérations linéaires pour capturer des relations complexes entre objectifs. Ces approches permettent de modéliser des préférences plus sophistiquées et des interactions non-additives.

YZ Sözlüğü

Politique d'Action Multi-Objectifs

Fonction de Valeur Vectorielle

Scalarisation Pondérée

DQN Multi-Objectifs

Récompense Vectorielle

PPO Multi-Objectifs

Trade-off Objectifs

Continuum de Politiques Pareto-Optimales

Méta-apprentissage Multi-Objectifs

Équilibre de Nash Multi-Objectifs

Agrégation Non-Linéaire

Sonuç bulunamadı