التعلم المعزز الهرمي - مسرد الذكاء الاصطناعي

📖

المصطلحات

Hierarchical Reinforcement Learning (HRL)

Paradigme d'apprentissage par renforcement structurant les politiques en plusieurs niveaux hiérarchiques où les méta-politiques contrôlent des sous-politiques spécialisées pour résoudre des tâches complexes de manière modulaire.

📖

المصطلحات

Options Framework

Formalisme introduit par Sutton et al. généralisant les actions atomiques en options temporaires consistant en une politique, une condition d'initiation et une condition de terminaison intra-temporelle.

📖

المصطلحات

Meta-controller

Politique de haut niveau dans HRL responsable de sélectionner et d'activer les sous-politiques appropriées en fonction des objectifs globaux et de l'état actuel de l'environnement.

📖

المصطلحات

Sub-controller

Politique de bas niveau exécutant des actions primitives ou des compétences spécifiques sous la supervision du méta-contrôleur pour accomplir des sous-tâches localisées.

📖

المصطلحات

Temporal Abstraction

Principe fondamental en HRL permettant de regrouper des séquences d'actions en unités temporelles cohérentes (options) pour réduire la complexité temporelle de l'apprentissage.

📖

المصطلحات

Feudal Reinforcement Learning

Architecture hiérarchique inspirée des systèmes féodaux où les managers de haut niveau définissent des objectifs pour les workers de bas niveau qui optimisent localement leurs récompenses.

📖

المصطلحات

MAXQ Framework

Approche HRL décomposant la valeur d'une politique hiérarchique en contributions additives de sous-tâches, permettant une décomposition automatique et réutilisable des problèmes.

📖

المصطلحات

Goal-conditioned Policies

Politiques paramétrées par des objectifs spécifiques permettant aux agents d'apprendre des comportements généralisables pouvant être réutilisés pour différents sous-objectifs.

📖

المصطلحات

الدافعية الذاتية

آلية تولد مكافآت داخلية قائمة على الجدة، الفضول أو الإتقان لتوجيه الاستكشاف الذاتي للمهارات الهرمية.

📖

المصطلحات

اكتشاف المهارات

عملية تلقائية لتحديد واستخلاص السلوكيات القابلة لإعادة الاستخدام (مهارات) من التفاعل مع البيئة دون إشراف خارجي صريح.

📖

المصطلحات

الممثل-الناقد الهرمي (HAC)

بنية HRL تجمع بين ممثلين ونقاد متعددين المستويات حيث يتعلم كل مستوى سياسة ووظيفة قيمة في وقت واحد لأفقه الزمني الخاص.

📖

المصطلحات

شبكة Q العميقة الهرمية (hDQN)

امتداد هرمي لـ DQN يستخدم شبكات قيمة منفصلة للسياسات عالية ومستوى منخفض، مع خيارات مُدرَّبة مسبقًا كإجراءات مجردة.

📖

المصطلحات

تجريد الحالة

تقنية تقلل من أبعاد الحالات عن طريق تجميع الملاحظات المماثلة ذات الصلة لكل مستوى هرمي، مما يحسن كفاءة التعلم.

📖

المصطلحات

وظيفة الإنهاء

وظيفة تحدد متى يجب أن يتوقف خيار ويعيد السيطرة إلى المستوى الأعلى، وهو أمر حاسم للتنسيق الزمني بين المستويات الهرمية.

📖

المصطلحات

وظيفة البدء

وظيفة تحدد الشروط التي يمكن فيها تنشيط خيار، مما يضمن عدم تنفيذ السياسات الفرعية إلا في الحالات المناسبة.

📖

المصطلحات

سياسة الخيارات

سياسة المستوى الأعلى التي تختار من بين الخيارات المتاحة بدلاً من الإجراءات الأولية، وتشكل جوهر اتخاذ القرار لأنظمة HRL.

📖

المصطلحات

إعادة تجربة الإدراك المتأخر (HER)

تقنية تزيد من التجارب السابقة من خلال إعادة تفسير الفشل كنجاح لأهداف بديلة، خاصة فعالة في الأطر الهرمية.

📖

المصطلحات

اكتشاف الأهداف الفرعية

عملية التعرف التلقائي على الحالات الوسيطة ذات الصلة التي تعمل كنقاط انتقال طبيعية بين مستويات اتخاذ القرار الهرمية.

📖

المصطلحات

تدرج السياسة الهرمية

طريقة تحسين التدرج المعدة للسياسات الهرمية، تنشر التدرجات عبر مستويات اتخاذ القرار المتعددة بشكل متزامن.

📖

المصطلحات

هندسة الخيار-الناقد

إطار عمل من طرف إلى طرف يتعلم بشكل متزامن سياسات الخيارات الداخلية والإنهاء وسياسات الخيارات عبر انحدار التدرج.

قاموس الذكاء الاصطناعي

Hierarchical Reinforcement Learning (HRL)

Options Framework

Meta-controller

Sub-controller

Temporal Abstraction

Feudal Reinforcement Learning

MAXQ Framework

Goal-conditioned Policies

الدافعية الذاتية

اكتشاف المهارات

الممثل-الناقد الهرمي (HAC)

شبكة Q العميقة الهرمية (hDQN)

تجريد الحالة

وظيفة الإنهاء

وظيفة البدء

سياسة الخيارات

إعادة تجربة الإدراك المتأخر (HER)

اكتشاف الأهداف الفرعية

تدرج السياسة الهرمية

هندسة الخيار-الناقد

لم يتم العثور على نتائج