MARL Centralisé-Décentralisé

📖

termes

Centralised Training with Decentralised Execution (CTDE)

Paradigme architectural en MARL où les agents s'entraînent en utilisant des informations globales et partagées, mais exécutent leurs politiques de manière totalement indépendante et décentralisée. Cette approche combine l'efficacité d'entraînement centralisée avec la robustesse d'exécution distribuée.

📖

termes

Value Decomposition Networks (VDN)

Architecture MARL qui décompose la valeur d'équipe globale en somme des valeurs individuelles des agents, garantissant la cohérence entre les politiques individuelles et collectives. VDN maintient l'hypothèse d'additivité simple pour faciliter l'apprentissage coordonné.

📖

termes

Q-MIX

Algorithme de décomposition de valeur qui utilise un réseau de mélange non-linéaire et monotone pour combiner les Q-valeurs individuelles en Q-valeur d'équipe. Q-MIX permet des interactions complexes entre agents tout en garantissant la cohérence IGM (Individual-Global-Max).

📖

termes

Multi-Agent Deep Deterministic Policy Gradient (MADDPG)

Extension de DDPG aux environnements multi-agents utilisant l'apprentissage centralisé-décentralisé avec des critiques centralisées et des acteurs décentralisés. Chaque agent apprend une politique en considérant les politiques des autres agents comme partie de l'environnement.

📖

termes

Counterfactual Multi-Agent Policy Gradients (COMA)

Algorithme de policy gradient multi-agents qui utilise un contre-facteur pour estimer l'avantage marginal de chaque action individuelle en gelant les actions des autres agents. COMA résout le problème de crédit assignment dans les environnements coopératifs.

📖

termes

Decentralised Partially Observable MDP (Dec-POMDP)

Formalisation mathématique des problèmes de décision multi-agents avec observabilité partielle où chaque agent prend des décisions basées sur ses observations locales. Les agents doivent coopérer pour maximiser une récompense globale partagée.

📖

termes

Credit Assignment Problem

Défi fondamental en MARL consistant à attribuer correctement la récompense d'équipe aux contributions individuelles de chaque agent. Une résolution efficace est cruciale pour l'apprentissage de politiques coordonnées et optimales.

📖

termes

Attention Mechanisms in Multi-Agent Systems

Technique permettant aux agents de pondérer sélectivement les informations pertinentes provenant d'autres agents ou de l'environnement. L'attention améliore la communication et la coordination en se concentrant sur les interactions les plus importantes.

📖

termes

Communication Protocols

Mécanismes structurant l'échange d'informations entre agents, pouvant être appris ou prédéfinis pour optimiser la coordination. Les protocoles efficaces réduisent la surcharge de communication tout en maintenant les informations critiques pour la tâche.

📖

termes

Coordination Graphs

Représentation graphique des dépendances entre agents où les nœuds représentent les agents et les arêtes les interactions nécessaires. Cette structure permet une décomposition efficace des problèmes de décision multi-agents.

📖

termes

Team Q-learning

Variante de Q-learning où les agents partagent une fonction de valeur commune et maximisent la récompense d'équipe collective. Les agents utilisent des observations locales mais optimisent un objectif global partagé.

📖

termes

Multi-Agent Proximal Policy Optimization (MAPPO)

Extension de PPO aux environnements multi-agents utilisant des critiques centralisées pour évaluer les politiques décentralisées individuelles. MAPPO maintient la stabilité d'entraînement de PPO tout en gérant la non-stationnarité multi-agents.

📖

termes

Individual-Global-Max (IGM) Principle

Principe théorique garantissant que l'action jointe optimale pour l'équipe consiste en l'ensemble des actions individuelles optimales selon les valeurs décomposées. L'IGM est essentiel pour la cohérence entre apprentissage individuel et collectif.

📖

termes

Parameter Sharing

Technique où les agents partagent les mêmes paramètres de réseau neuronal pour exploiter les similitudes dans les tâches et réduire la complexité. Le partage de paramètres facilite l'apprentissage et la généralisation entre agents homogènes.

📖

termes

Non-Stationarity Problem

Défi en MARL où l'environnement perçu par chaque agent change constamment car les autres agents adaptent leurs politiques. Ce problème nécessite des algorithmes spécifiques comme CTDE pour maintenir la convergence.

Glossaire IA

Centralised Training with Decentralised Execution (CTDE)

Value Decomposition Networks (VDN)

Q-MIX

Multi-Agent Deep Deterministic Policy Gradient (MADDPG)

Counterfactual Multi-Agent Policy Gradients (COMA)

Decentralised Partially Observable MDP (Dec-POMDP)

Credit Assignment Problem

Attention Mechanisms in Multi-Agent Systems

Communication Protocols

Coordination Graphs

Team Q-learning

Multi-Agent Proximal Policy Optimization (MAPPO)

Individual-Global-Max (IGM) Principle

Parameter Sharing

Non-Stationarity Problem

Aucun résultat trouvé