قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Hierarchical Reinforcement Learning (HRL)
Paradigme d'apprentissage par renforcement structurant les politiques en plusieurs niveaux hiérarchiques où les méta-politiques contrôlent des sous-politiques spécialisées pour résoudre des tâches complexes de manière modulaire.
Options Framework
Formalisme introduit par Sutton et al. généralisant les actions atomiques en options temporaires consistant en une politique, une condition d'initiation et une condition de terminaison intra-temporelle.
Meta-controller
Politique de haut niveau dans HRL responsable de sélectionner et d'activer les sous-politiques appropriées en fonction des objectifs globaux et de l'état actuel de l'environnement.
Sub-controller
Politique de bas niveau exécutant des actions primitives ou des compétences spécifiques sous la supervision du méta-contrôleur pour accomplir des sous-tâches localisées.
Temporal Abstraction
Principe fondamental en HRL permettant de regrouper des séquences d'actions en unités temporelles cohérentes (options) pour réduire la complexité temporelle de l'apprentissage.
Feudal Reinforcement Learning
Architecture hiérarchique inspirée des systèmes féodaux où les managers de haut niveau définissent des objectifs pour les workers de bas niveau qui optimisent localement leurs récompenses.
MAXQ Framework
Approche HRL décomposant la valeur d'une politique hiérarchique en contributions additives de sous-tâches, permettant une décomposition automatique et réutilisable des problèmes.
Goal-conditioned Policies
Politiques paramétrées par des objectifs spécifiques permettant aux agents d'apprendre des comportements généralisables pouvant être réutilisés pour différents sous-objectifs.
الدافعية الذاتية
آلية تولد مكافآت داخلية قائمة على الجدة، الفضول أو الإتقان لتوجيه الاستكشاف الذاتي للمهارات الهرمية.
اكتشاف المهارات
عملية تلقائية لتحديد واستخلاص السلوكيات القابلة لإعادة الاستخدام (مهارات) من التفاعل مع البيئة دون إشراف خارجي صريح.
الممثل-الناقد الهرمي (HAC)
بنية HRL تجمع بين ممثلين ونقاد متعددين المستويات حيث يتعلم كل مستوى سياسة ووظيفة قيمة في وقت واحد لأفقه الزمني الخاص.
شبكة Q العميقة الهرمية (hDQN)
امتداد هرمي لـ DQN يستخدم شبكات قيمة منفصلة للسياسات عالية ومستوى منخفض، مع خيارات مُدرَّبة مسبقًا كإجراءات مجردة.
تجريد الحالة
تقنية تقلل من أبعاد الحالات عن طريق تجميع الملاحظات المماثلة ذات الصلة لكل مستوى هرمي، مما يحسن كفاءة التعلم.
وظيفة الإنهاء
وظيفة تحدد متى يجب أن يتوقف خيار ويعيد السيطرة إلى المستوى الأعلى، وهو أمر حاسم للتنسيق الزمني بين المستويات الهرمية.
وظيفة البدء
وظيفة تحدد الشروط التي يمكن فيها تنشيط خيار، مما يضمن عدم تنفيذ السياسات الفرعية إلا في الحالات المناسبة.
سياسة الخيارات
سياسة المستوى الأعلى التي تختار من بين الخيارات المتاحة بدلاً من الإجراءات الأولية، وتشكل جوهر اتخاذ القرار لأنظمة HRL.
إعادة تجربة الإدراك المتأخر (HER)
تقنية تزيد من التجارب السابقة من خلال إعادة تفسير الفشل كنجاح لأهداف بديلة، خاصة فعالة في الأطر الهرمية.
اكتشاف الأهداف الفرعية
عملية التعرف التلقائي على الحالات الوسيطة ذات الصلة التي تعمل كنقاط انتقال طبيعية بين مستويات اتخاذ القرار الهرمية.
تدرج السياسة الهرمية
طريقة تحسين التدرج المعدة للسياسات الهرمية، تنشر التدرجات عبر مستويات اتخاذ القرار المتعددة بشكل متزامن.
هندسة الخيار-الناقد
إطار عمل من طرف إلى طرف يتعلم بشكل متزامن سياسات الخيارات الداخلية والإنهاء وسياسات الخيارات عبر انحدار التدرج.