قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Behavioral Cloning
Apprentissage supervisé où l'agent imite directement les actions d'experts à partir de démonstrations.
التعلم المعزز العكسي
يستنتج وظيفة المكافأة المثلى من سلوكيات الخبراء الملاحظة.
Generative Adversarial Imitation Learning
Utilise des réseaux antagonistes pour discriminer entre les actions de l'agent et celles de l'expert.
تجميع البيانات (DAgger)
طريقة تكرارية تجمع بيانات خبير جديدة على مسارات الوكيل لتحسين السياسة.
تعلم المكافأة من خلال التغذية الراجعة البشرية
تعلم المكافآت من التقييمات المقارنة أو النوعية التي يقدمها البشر
التعلم المعزز دون اتصال
التعلم بالتعزيز باستخدام مجموعات البيانات الثابتة فقط دون التفاعل مع البيئة.
التعلم بالتقليد القائم على النموذج
يبني نموذجًا ديناميكيًا للبيئة لتسريع التعلم بالتقليد
التعلم بالتقليد الميتا
يتعلم تقليد المهام الجديدة بسرعة مع عدد قليل من العروض التوضيحية
التعلم بالتقليد الهرمي
يحلل السلوكيات المعقدة إلى هرمية من المهام الفرعية الأبسط للتقليد.
التعلم بالتقليد متعدد الوسائط
يتعامل مع عدة حلول صالحة لنفس المهمة عن طريق تعلم التوزيع على الإجراءات.
تعلم التقليد الذاتي
يقلد الوكيل إجراءاته السابقة الناجحة لتحسين سياسته الحالية
التعلم بالتقليد المشروط بالهدف
يتعلم سياسة مشروطة بأهداف محددة لإنجاز مهام متنوعة.
التعلم بالتعزيز المعاكس المنافس
يجمع بين التعلم بالتعزيز المعاكس والتعلم المنافس لتقدير أكثر قوة للمكافآت
التعلم بالتقليد مع الملاحظات الجزئية
التعلم بالتقليد في بيئات لا يلاحظ فيها الوكيل إلا جزءًا من الحالة.
التعلم بالتقليد المنهجي
تسلسل تقدمي للعروض بصعوبة متزايدة لتسهيل التعلم