🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

Hierarchical Reinforcement Learning (HRL)

Paradigme d'apprentissage par renforcement structurant les politiques en plusieurs niveaux hiérarchiques où les méta-politiques contrôlent des sous-politiques spécialisées pour résoudre des tâches complexes de manière modulaire.

📖
المصطلحات

Options Framework

Formalisme introduit par Sutton et al. généralisant les actions atomiques en options temporaires consistant en une politique, une condition d'initiation et une condition de terminaison intra-temporelle.

📖
المصطلحات

Meta-controller

Politique de haut niveau dans HRL responsable de sélectionner et d'activer les sous-politiques appropriées en fonction des objectifs globaux et de l'état actuel de l'environnement.

📖
المصطلحات

Sub-controller

Politique de bas niveau exécutant des actions primitives ou des compétences spécifiques sous la supervision du méta-contrôleur pour accomplir des sous-tâches localisées.

📖
المصطلحات

Temporal Abstraction

Principe fondamental en HRL permettant de regrouper des séquences d'actions en unités temporelles cohérentes (options) pour réduire la complexité temporelle de l'apprentissage.

📖
المصطلحات

Feudal Reinforcement Learning

Architecture hiérarchique inspirée des systèmes féodaux où les managers de haut niveau définissent des objectifs pour les workers de bas niveau qui optimisent localement leurs récompenses.

📖
المصطلحات

MAXQ Framework

Approche HRL décomposant la valeur d'une politique hiérarchique en contributions additives de sous-tâches, permettant une décomposition automatique et réutilisable des problèmes.

📖
المصطلحات

Goal-conditioned Policies

Politiques paramétrées par des objectifs spécifiques permettant aux agents d'apprendre des comportements généralisables pouvant être réutilisés pour différents sous-objectifs.

📖
المصطلحات

الدافعية الذاتية

آلية تولد مكافآت داخلية قائمة على الجدة، الفضول أو الإتقان لتوجيه الاستكشاف الذاتي للمهارات الهرمية.

📖
المصطلحات

اكتشاف المهارات

عملية تلقائية لتحديد واستخلاص السلوكيات القابلة لإعادة الاستخدام (مهارات) من التفاعل مع البيئة دون إشراف خارجي صريح.

📖
المصطلحات

الممثل-الناقد الهرمي (HAC)

بنية HRL تجمع بين ممثلين ونقاد متعددين المستويات حيث يتعلم كل مستوى سياسة ووظيفة قيمة في وقت واحد لأفقه الزمني الخاص.

📖
المصطلحات

شبكة Q العميقة الهرمية (hDQN)

امتداد هرمي لـ DQN يستخدم شبكات قيمة منفصلة للسياسات عالية ومستوى منخفض، مع خيارات مُدرَّبة مسبقًا كإجراءات مجردة.

📖
المصطلحات

تجريد الحالة

تقنية تقلل من أبعاد الحالات عن طريق تجميع الملاحظات المماثلة ذات الصلة لكل مستوى هرمي، مما يحسن كفاءة التعلم.

📖
المصطلحات

وظيفة الإنهاء

وظيفة تحدد متى يجب أن يتوقف خيار ويعيد السيطرة إلى المستوى الأعلى، وهو أمر حاسم للتنسيق الزمني بين المستويات الهرمية.

📖
المصطلحات

وظيفة البدء

وظيفة تحدد الشروط التي يمكن فيها تنشيط خيار، مما يضمن عدم تنفيذ السياسات الفرعية إلا في الحالات المناسبة.

📖
المصطلحات

سياسة الخيارات

سياسة المستوى الأعلى التي تختار من بين الخيارات المتاحة بدلاً من الإجراءات الأولية، وتشكل جوهر اتخاذ القرار لأنظمة HRL.

📖
المصطلحات

إعادة تجربة الإدراك المتأخر (HER)

تقنية تزيد من التجارب السابقة من خلال إعادة تفسير الفشل كنجاح لأهداف بديلة، خاصة فعالة في الأطر الهرمية.

📖
المصطلحات

اكتشاف الأهداف الفرعية

عملية التعرف التلقائي على الحالات الوسيطة ذات الصلة التي تعمل كنقاط انتقال طبيعية بين مستويات اتخاذ القرار الهرمية.

📖
المصطلحات

تدرج السياسة الهرمية

طريقة تحسين التدرج المعدة للسياسات الهرمية، تنشر التدرجات عبر مستويات اتخاذ القرار المتعددة بشكل متزامن.

📖
المصطلحات

هندسة الخيار-الناقد

إطار عمل من طرف إلى طرف يتعلم بشكل متزامن سياسات الخيارات الداخلية والإنهاء وسياسات الخيارات عبر انحدار التدرج.

🔍

لم يتم العثور على نتائج