قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التعلم بالتعزيز العكسي
طريقة تعلم يقوم فيها الوكيل باستنتاج وظيفة المكافأة من مظاهرات الخبراء بدلاً من تلقي مكافآت صريحة.
التعلم بالتعزيز العكسي بأقصى إنتروبي
متغير من التعلم بالتعزيز العكسي يفترض أن الخبير يتبع توزيع الاحتمالية الأعلى من حيث الإنتروبي بين جميع السياسات المثلى.
التعلم السلوكي
نهج تعلم تحت الإشراف يتعلم مباشرة تقليد إجراءات الخبير دون استنتاج وظيفة المكافأة بشكل صريح.
مسار الخبير
تسلسل من الحالات والإجراءات التي لوحظت لدى الخبير، ويمثل حلاً مثالياً أو شبه مثالي للمشكلة.
تكافؤ السياسة
مبدأ ينص على أن عدة وظائف مكافأة يمكن أن تؤدي إلى نفس السياسة المثلى، مما يخلق غموضًا في التعلم بالتعزيز العكسي.
التعلم بالتعزيز العكسي البيزي
نهج التعلم بالتعزيز العكسي الذي يستخدم الاستدلال البيزي لتقدير توزيع على وظائف المكافأة المحتملة.
تكلفة التفضيل
تحويل وظيفة المكافأة إلى وظيفة التكلفة، حيث يتعلم الوكيل تقليل التكلفة الإجمالية مع اتباع المظاهرات.
التعلم بالتعزيز العكسي الخصمي
طريقة التعلم بالتعزيز العكسي التي تستخدم لعبة خصومية حيث يتعلم المولد السياسة والمميز يميز مسارات الخبراء.
التعلم بالتعزيز المعكوس النشط
متغير من IRL حيث يمكن للعميل استجواب الخبير للحصول على عروض توضيحية إضافية وتقليل عدم اليقين.
استدلال دالة الهدف
العملية الرياضية لاستنتاج دالة الهدف الأساسية من ملاحظات سلوك الخبير.
تحيز المحاكاة
ميل العميل إلى الإفراط في محاكاة إجراءات الخبير دون فهم النية الأساسية، مما يؤدي إلى عمليات تعميم رديئة.
التعلم بالتعزيز مع تغذية راجعة من الخبير
مزيج من RL و IRL حيث يتدريب النموذج أولاً على بيانات الخبير، ثم يتم تحسينه مع التغذية الراجعة البشرية.
دالة السمات
دالة تقوم بتحويل الحالات-الإجراءات إلى مساحة السمات، وتستخدم لتمثيل دالة المكافأة بشكل خطي.
التعلم بالتعزيز المعكوس متعدد المهام
امتداد لـ IRL حيث يتم تعلم مهام متعددة في نفس الوقت من خلال مشاركة المعرفة بين دوال المكافأة.