قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التدريب المركزي مع التنفيذ اللامركزي (CTDE)
نمط معماري في التعلم المعزز متعدد العوامل حيث يتدرب الوكلاء باستخدام معلومات عالمية ومشتركة، لكنهم ينفذون سياساتهم بشكل مستقل تماماً ولا مركزي. يجمع هذا النهج بين كفاءة التدريب المركزية ومتانة التنفيذ الموزع.
شبكات تحليل القيمة (VDN)
هندسة MARL تقوم بتحليل القيمة الجماعية العالمية إلى مجموع قيم الوكلاء الأفراد، مما يضمن الاتساق بين السياسات الفردية والجماعية. تحافظ VDN على افتراض الإضافة البسيطة لتسهيل التعلم المنسق.
كيو-ميكس (Q-MIX)
خوارزمية تحليل قيمة تستخدم شبكة خلط غير خطية ورتيبة لدمج قيم Q الفردية في قيمة Q جماعية. يسمح Q-MIX بتفاعلات معقدة بين الوكلاء مع ضمان اتساق IGM (الحد الأقصى الفردي-العالمي).
متعدد العوامل متدرج السياسة الحتمية العميق (MADDPG)
امتداد لـ DDPG في بيئات متعددة العوامل باستخدام التعلم المركزي-اللامركزي مع نقاد مركزية وفاعلين لا مركزيين. يتعلم كل وكيل سياسة مع اعتبار سياسات الوكلاء الآخرين كجزء من البيئة.
متعدد العوامل متدرج السياسة المضاد للواقع (COMA)
خوارزمية متدرج سياسة متعددة العوامل تستخدم مضاداً للواقع لتقديم الميزة الهامشية لكل فعل فردي بتجميد أفعال الوكلاء الآخرين. يحل COMA مشكلة توزيع الفضل في البيئات التعاونية.
MDP جزئي الملاحظة اللامركزي (Dec-POMDP)
صياغة رياضية لمشاكل اتخاذ القرار متعددة العوامل مع قابلية مراقبة جزئية حيث يتخذ كل وكيل قرارات بناءً على ملاحظاته المحلية. يجب على الوكلاء التعاون لتعظيم مكافأة عالمية مشتركة.
مشكلة توزيع الفضل
تحد أساسي في MARL يتمثل في إسناد مكافأة الفريق بشكل صحيح إلى المساهمات الفردية لكل وكيل. يعد الحل الفعال حاسماً لتعلم سياسات منسقة ومثالية.
آليات الانتباه في الأنظمة متعددة العوامل
تقنية تسمح للوكلاء بترجيح المعلومات ذات الصلة بشكل انتقائي من الوكلاء الآخرين أو البيئة. يحسن الانتباه التواصل والتنسيق من خلال التركيز على التفاعلات الأكثر أهمية.
بروتوكولات الاتصال
آليات منظمة لتبادل المعلومات بين الوكلاء، يمكن تعلمها أو تحديدها مسبقًا لتحسين التنسيق. تقلل البروتوكولات الفعالة من حمل الاتصال مع الحفاظ على المعلومات الحرجة للمهمة.
رسوم التنسيق
تمثيل بياني للتبعيات بين الوكلاء حيث تمثل العقد الوكلاء وتمثل الحواف التفاعلات الضرورية. تتيح هذه البنية تحليلًا فعالًا لمشاكل اتخاذ القرار متعدد الوكلاء.
تعلم Q للفريق
نوع من تعلم Q حيث يشارك الوكلاء دالة قيمة مشتركة ويعظمون مكافأة الفريق الجماعية. يستخدم الوكلاء ملاحظات محلية لكنهم يحسنون هدفًا عالميًا مشتركًا.
تحسين السياسة القريبة متعددة الوكلاء (MAPPO)
امتداد لـ PPO في بيئات متعددة الوكلاء يستخدم نقاد مركزيين لتقييم السياسات اللامركزية الفردية. يحافظ MAPPO على استقرار تدريب PPO مع إدارة عدم الثبات متعدد الوكلاء.
مبدأ الأقصى الفردي-العالمي (IGM)
مبدأ نظري يضمن أن العمل المشترك الأمثل للفريق يتكون من مجموعة الأفعال الفردية المثلى وفقًا للقيم المحللة. يعد IGM أساسيًا للاتساق بين التعلم الفردي والجماعي.
مشاركة المعاملات
تقنية حيث يشارك الوكلاء نفس معاملات الشبكة العصبية لاستغلال أوجه التشابه في المهام وتقليل التعقيد. تسهل مشاركة المعاملات التعلم والتعميم بين الوكلاء المتجانسين.
مشكلة عدم الثبات
تحدٍ في MARL حيث تتغير البيئة التي يدركها كل وكيل باستمرار لأن الوكلاء الآخرين يعدلون سياساتهم. تتطلب هذه المشكلة خوارزميات محددة مثل CTDE للحفاظ على التقارب.