المركزي-اللامركزي في التعلم متعدد العوامل

📖

المصطلحات

التدريب المركزي مع التنفيذ اللامركزي (CTDE)

نمط معماري في التعلم المعزز متعدد العوامل حيث يتدرب الوكلاء باستخدام معلومات عالمية ومشتركة، لكنهم ينفذون سياساتهم بشكل مستقل تماماً ولا مركزي. يجمع هذا النهج بين كفاءة التدريب المركزية ومتانة التنفيذ الموزع.

📖

المصطلحات

شبكات تحليل القيمة (VDN)

هندسة MARL تقوم بتحليل القيمة الجماعية العالمية إلى مجموع قيم الوكلاء الأفراد، مما يضمن الاتساق بين السياسات الفردية والجماعية. تحافظ VDN على افتراض الإضافة البسيطة لتسهيل التعلم المنسق.

📖

المصطلحات

كيو-ميكس (Q-MIX)

خوارزمية تحليل قيمة تستخدم شبكة خلط غير خطية ورتيبة لدمج قيم Q الفردية في قيمة Q جماعية. يسمح Q-MIX بتفاعلات معقدة بين الوكلاء مع ضمان اتساق IGM (الحد الأقصى الفردي-العالمي).

📖

المصطلحات

متعدد العوامل متدرج السياسة الحتمية العميق (MADDPG)

امتداد لـ DDPG في بيئات متعددة العوامل باستخدام التعلم المركزي-اللامركزي مع نقاد مركزية وفاعلين لا مركزيين. يتعلم كل وكيل سياسة مع اعتبار سياسات الوكلاء الآخرين كجزء من البيئة.

📖

المصطلحات

متعدد العوامل متدرج السياسة المضاد للواقع (COMA)

خوارزمية متدرج سياسة متعددة العوامل تستخدم مضاداً للواقع لتقديم الميزة الهامشية لكل فعل فردي بتجميد أفعال الوكلاء الآخرين. يحل COMA مشكلة توزيع الفضل في البيئات التعاونية.

📖

المصطلحات

MDP جزئي الملاحظة اللامركزي (Dec-POMDP)

صياغة رياضية لمشاكل اتخاذ القرار متعددة العوامل مع قابلية مراقبة جزئية حيث يتخذ كل وكيل قرارات بناءً على ملاحظاته المحلية. يجب على الوكلاء التعاون لتعظيم مكافأة عالمية مشتركة.

📖

المصطلحات

مشكلة توزيع الفضل

تحد أساسي في MARL يتمثل في إسناد مكافأة الفريق بشكل صحيح إلى المساهمات الفردية لكل وكيل. يعد الحل الفعال حاسماً لتعلم سياسات منسقة ومثالية.

📖

المصطلحات

آليات الانتباه في الأنظمة متعددة العوامل

تقنية تسمح للوكلاء بترجيح المعلومات ذات الصلة بشكل انتقائي من الوكلاء الآخرين أو البيئة. يحسن الانتباه التواصل والتنسيق من خلال التركيز على التفاعلات الأكثر أهمية.

📖

المصطلحات

بروتوكولات الاتصال

آليات منظمة لتبادل المعلومات بين الوكلاء، يمكن تعلمها أو تحديدها مسبقًا لتحسين التنسيق. تقلل البروتوكولات الفعالة من حمل الاتصال مع الحفاظ على المعلومات الحرجة للمهمة.

📖

المصطلحات

رسوم التنسيق

تمثيل بياني للتبعيات بين الوكلاء حيث تمثل العقد الوكلاء وتمثل الحواف التفاعلات الضرورية. تتيح هذه البنية تحليلًا فعالًا لمشاكل اتخاذ القرار متعدد الوكلاء.

📖

المصطلحات

تعلم Q للفريق

نوع من تعلم Q حيث يشارك الوكلاء دالة قيمة مشتركة ويعظمون مكافأة الفريق الجماعية. يستخدم الوكلاء ملاحظات محلية لكنهم يحسنون هدفًا عالميًا مشتركًا.

📖

المصطلحات

تحسين السياسة القريبة متعددة الوكلاء (MAPPO)

امتداد لـ PPO في بيئات متعددة الوكلاء يستخدم نقاد مركزيين لتقييم السياسات اللامركزية الفردية. يحافظ MAPPO على استقرار تدريب PPO مع إدارة عدم الثبات متعدد الوكلاء.

📖

المصطلحات

مبدأ الأقصى الفردي-العالمي (IGM)

مبدأ نظري يضمن أن العمل المشترك الأمثل للفريق يتكون من مجموعة الأفعال الفردية المثلى وفقًا للقيم المحللة. يعد IGM أساسيًا للاتساق بين التعلم الفردي والجماعي.

📖

المصطلحات

مشاركة المعاملات

تقنية حيث يشارك الوكلاء نفس معاملات الشبكة العصبية لاستغلال أوجه التشابه في المهام وتقليل التعقيد. تسهل مشاركة المعاملات التعلم والتعميم بين الوكلاء المتجانسين.

📖

المصطلحات

مشكلة عدم الثبات

تحدٍ في MARL حيث تتغير البيئة التي يدركها كل وكيل باستمرار لأن الوكلاء الآخرين يعدلون سياساتهم. تتطلب هذه المشكلة خوارزميات محددة مثل CTDE للحفاظ على التقارب.

قاموس الذكاء الاصطناعي

التدريب المركزي مع التنفيذ اللامركزي (CTDE)

شبكات تحليل القيمة (VDN)

كيو-ميكس (Q-MIX)

متعدد العوامل متدرج السياسة الحتمية العميق (MADDPG)

متعدد العوامل متدرج السياسة المضاد للواقع (COMA)

MDP جزئي الملاحظة اللامركزي (Dec-POMDP)

مشكلة توزيع الفضل

آليات الانتباه في الأنظمة متعددة العوامل

بروتوكولات الاتصال

رسوم التنسيق

تعلم Q للفريق

تحسين السياسة القريبة متعددة الوكلاء (MAPPO)

مبدأ الأقصى الفردي-العالمي (IGM)

مشاركة المعاملات

مشكلة عدم الثبات

لم يتم العثور على نتائج