MARL Partiellement Observable

📖

termes

POMDP (Partially Observable Markov Decision Process)

Cadre théorique modélisant les environnements où l'agent ne perçoit qu'une observation partielle de l'état réel, nécessitant une inférence probabiliste sur l'état caché pour prendre des décisions optimales.

📖

termes

Espace d'Observation

Ensemble des signaux sensoriels partiels que chaque agent peut percevoir de l'environnement, représentant une information incomplète de l'état global du système.

📖

termes

État de Croyance

Distribution de probabilité sur l'espace des états cachés qu'un agent maintient et met à jour à partir de ses observations successives pour représenter son incertitude sur l'état réel de l'environnement.

📖

termes

Protocole de Communication

Mécanisme définissant quand, comment et quelles informations les agents peuvent échanger entre eux pour coordonner leurs actions dans un environnement partiellement observable.

📖

termes

Entraînement Centralisé avec Exécution Décentralisée

Approche où les agents s'entraînent en utilisant des informations globales (états, actions de tous) mais exécutent leurs politiques individuellement en utilisant seulement leurs observations locales.

📖

termes

Factorisation de la Fonction de Valeur

Technique décomposant la fonction de valeur globale en somme de fonctions de valeur individuelles ou locales, permettant l'apprentissage décentralisé tout en préservant la cohérence globale.

📖

termes

Modélisation des Adversaires

Processus d'inférence des politiques ou intentions des autres agents basé sur leurs comportements observés, crucial pour la prise de décision dans des environnements compétitifs ou coopératifs.

📖

termes

Problème d'Allocation de Crédit

Difficulté à attribuer correctement la récompense globale à chaque agent dans un système multi-agents, particulièrement complexe lorsque les observations sont partielles et les actions interdépendantes.

📖

termes

Apprentissage d'Action Conjointe

Méthode où les agents apprennent à coordonner leurs actions en modélisant explicitement l'impact des actions combinées sur la récompense globale, malgré l'observabilité partielle.

📖

termes

Estimation d'État

Processus algorithmique permettant à un agent d'inférer l'état global le plus probable à partir de ses observations locales et de son modèle de l'environnement.

📖

termes

Partage d'Information

Stratégie définissant comment les agents distribuent et agrègent leurs observations locales pour améliorer la connaissance collective de l'état de l'environnement.

📖

termes

Historique d'Observation Locale

Séquence temporelle des observations passées d'un agent, utilisée comme contexte supplémentaire pour compenser le manque d'information sur l'état global actuel.

📖

termes

Observabilité Partielle Multi-agents

Condition où aucun agent individuel ne peut observer l'état complet du système, nécessitant des stratégies de coordination et d'inférence pour atteindre des performances optimales.

📖

termes

Politique Décentralisée

Fonction de décision pour chaque agent qui mappe son historique d'observations locales à une action, sans dépendre directe des informations des autres agents durant l'exécution.

📖

termes

Connaissance Commune

Information que tous les agents connaissent et savent que les autres connaissent également, essentielle pour la coordination dans les environnements partiellement observables.

📖

termes

Graphe de Coordination

Structure représentant les dépendances d'interaction entre agents, permettant de factoriser le problème de décision global en sous-problèmes locaux plus faciles à résoudre.

Glossaire IA

POMDP (Partially Observable Markov Decision Process)

Espace d'Observation

État de Croyance

Protocole de Communication

Entraînement Centralisé avec Exécution Décentralisée

Factorisation de la Fonction de Valeur

Modélisation des Adversaires

Problème d'Allocation de Crédit

Apprentissage d'Action Conjointe

Estimation d'État

Partage d'Information

Historique d'Observation Locale

Observabilité Partielle Multi-agents

Politique Décentralisée

Connaissance Commune

Graphe de Coordination

Aucun résultat trouvé