Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Centralised Training with Decentralised Execution (CTDE)
Paradigme architectural en MARL où les agents s'entraînent en utilisant des informations globales et partagées, mais exécutent leurs politiques de manière totalement indépendante et décentralisée. Cette approche combine l'efficacité d'entraînement centralisée avec la robustesse d'exécution distribuée.
Value Decomposition Networks (VDN)
Architecture MARL qui décompose la valeur d'équipe globale en somme des valeurs individuelles des agents, garantissant la cohérence entre les politiques individuelles et collectives. VDN maintient l'hypothèse d'additivité simple pour faciliter l'apprentissage coordonné.
Q-MIX
Algorithme de décomposition de valeur qui utilise un réseau de mélange non-linéaire et monotone pour combiner les Q-valeurs individuelles en Q-valeur d'équipe. Q-MIX permet des interactions complexes entre agents tout en garantissant la cohérence IGM (Individual-Global-Max).
Multi-Agent Deep Deterministic Policy Gradient (MADDPG)
Extension de DDPG aux environnements multi-agents utilisant l'apprentissage centralisé-décentralisé avec des critiques centralisées et des acteurs décentralisés. Chaque agent apprend une politique en considérant les politiques des autres agents comme partie de l'environnement.
Counterfactual Multi-Agent Policy Gradients (COMA)
Algorithme de policy gradient multi-agents qui utilise un contre-facteur pour estimer l'avantage marginal de chaque action individuelle en gelant les actions des autres agents. COMA résout le problème de crédit assignment dans les environnements coopératifs.
Decentralised Partially Observable MDP (Dec-POMDP)
Formalisation mathématique des problèmes de décision multi-agents avec observabilité partielle où chaque agent prend des décisions basées sur ses observations locales. Les agents doivent coopérer pour maximiser une récompense globale partagée.
Credit Assignment Problem
Défi fondamental en MARL consistant à attribuer correctement la récompense d'équipe aux contributions individuelles de chaque agent. Une résolution efficace est cruciale pour l'apprentissage de politiques coordonnées et optimales.
Attention Mechanisms in Multi-Agent Systems
Technique permettant aux agents de pondérer sélectivement les informations pertinentes provenant d'autres agents ou de l'environnement. L'attention améliore la communication et la coordination en se concentrant sur les interactions les plus importantes.
Communication Protocols
Mécanismes structurant l'échange d'informations entre agents, pouvant être appris ou prédéfinis pour optimiser la coordination. Les protocoles efficaces réduisent la surcharge de communication tout en maintenant les informations critiques pour la tâche.
Coordination Graphs
Représentation graphique des dépendances entre agents où les nœuds représentent les agents et les arêtes les interactions nécessaires. Cette structure permet une décomposition efficace des problèmes de décision multi-agents.
Team Q-learning
Variante de Q-learning où les agents partagent une fonction de valeur commune et maximisent la récompense d'équipe collective. Les agents utilisent des observations locales mais optimisent un objectif global partagé.
Multi-Agent Proximal Policy Optimization (MAPPO)
Extension de PPO aux environnements multi-agents utilisant des critiques centralisées pour évaluer les politiques décentralisées individuelles. MAPPO maintient la stabilité d'entraînement de PPO tout en gérant la non-stationnarité multi-agents.
Individual-Global-Max (IGM) Principle
Principe théorique garantissant que l'action jointe optimale pour l'équipe consiste en l'ensemble des actions individuelles optimales selon les valeurs décomposées. L'IGM est essentiel pour la cohérence entre apprentissage individuel et collectif.
Parameter Sharing
Technique où les agents partagent les mêmes paramètres de réseau neuronal pour exploiter les similitudes dans les tâches et réduire la complexité. Le partage de paramètres facilite l'apprentissage et la généralisation entre agents homogènes.
Non-Stationarity Problem
Défi en MARL où l'environnement perçu par chaque agent change constamment car les autres agents adaptent leurs politiques. Ce problème nécessite des algorithmes spécifiques comme CTDE pour maintenir la convergence.