قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Apprentissage par Renforcement Multi-Agents (MARL)
Paradigme d'apprentissage où plusieurs agents interagissent et apprennent simultanément dans un environnement partagé, souvent de manière concurrente ou coopérative pour maximiser une récompense collective ou individuelle.
Jeux à Somme Non Nulle
Contexte d'interaction où les gains totaux des agents ne sont pas fixes, permettant des situations de coopération où les agents peuvent mutuellement bénéficier de leurs actions pour améliorer la récompense globale.
Q-Learning Décentralisé
Variante du Q-Learning où chaque agent apprend sa propre fonction de valeur Q de manière indépendante, sans partage direct d'informations sur les politiques ou les valeurs des autres agents.
Q-Learning Centralisé avec Exécution Décentralisée (CTDE)
Cadre d'apprentissage où les agents utilisent des informations globales (centralisées) durant la phase d'entraînement pour évaluer les actions, mais prennent leurs décisions de manière décentralisée lors de l'exécution.
Théorie des Jeux Stochastiques
Extension de la théorie des jeux aux environnements où les transitions d'états et les récompenses sont probabilistes, fournissant un modèle mathématique formel pour les interactions multi-agents dans des contextes dynamiques.
Dilemme du Prisonnier Itératif
Version répétée du dilemme du prisonnier, utilisée en MARL pour étudier l'émergence de stratégies coopératives ou compétitives basées sur l'historique des interactions entre agents.
Réseaux d'Agents Adversariaux (GANs Multi-Agents)
Application des réseaux génératifs adversariaux où plusieurs agents (générateurs et discriminateurs) sont en compétition, chacun apprenant à améliorer sa performance en réponse aux stratégies des autres.
Apprentissage par Renforcement Hiérarchique Multi-Agents
Approche structurant l'apprentissage sur plusieurs niveaux, où des agents de haut niveau définissent des sous-tâches pour des agents de bas niveau, facilitant la résolution de problèmes complexes et la coordination.
الاستقرار البيئي
مشكلة في التعلم المعزز متعدد الوكلاء حيث يتغير البيئة المدركة من قبل وكيل باستمرار لأن الوكلاء الآخرين يتعلمون ويعدلون سياساتهم، مما يجعل تعلم سياسة مثلى صعبًا بشكل خاص.
الاستكشاف مقابل الاستغلال في الأنظمة متعددة الوكلاء
معضلة تتعقد بوجود وكلاء آخرين، حيث يمكن أن يُنظر لاستكشاف وكيل ما على أنه ضوضاء أو تصرف عدائي من قبل الآخرين، وقد يعتمد الاستغلال على الاستراتيجيات المتنافسة.
التعلم المعزز العكسي متعدد الوكلاء
تقنية يستنتج فيها الوكلاء دالة المكافأة أو نوايا الوكلاء الآخرين من خلال مراقبة سلوكهم، بهدف التنبؤ بأفعالهم بشكل أفضل والتعاون أو المنافسة بكفاءة أكبر.
السياسات المختلطة
استراتيجية يختار فيها الوكيل أفعاله وفقًا لتوزيع احتمالي بدلاً من أن يكون ذلك بطريقة حتمية، وهي ضرورية لتحقيق توازن ناش في الألعاب ذات المجموع الصفري.
تشكيل التحالفات
عملية ديناميكية يتحالف من خلالها مجموعات فرعية من الوكلاء لتحقيق هدف مشترك، ويتشاركون المكافآت والمعلومات لتحسين أدائهم مقارنة بالعمل الفردي.
التعلم المستمر متعدد الوكلاء
تحدي يتمثل في تمكين الوكلاء من تكييف سياساتهم مع مهام جديدة أو مع انضمام/انسحاب وكلاء آخرين دون نسيان المعرفة المكتسبة سابقًا، مما يضمن متانة ومرونة النظام.
التعلم الفوقي في التعلم المعزز متعدد الوكلاء
نهج يهدف إلى تدريب الوكلاء على كيفية التعلم بفعالية في مجموعة متنوعة من المهام متعددة الوكلاء، مما يسمح لهم بالتكيف بسرعة مع بيئات جديدة أو تكوينات جديدة للوكلاء.