التعلم بالتعزيز العكسي

📖

المصطلحات

طريقة تعلم يقوم فيها الوكيل باستنتاج وظيفة المكافأة من مظاهرات الخبراء بدلاً من تلقي مكافآت صريحة.

📖

المصطلحات

التعلم بالتعزيز العكسي بأقصى إنتروبي

متغير من التعلم بالتعزيز العكسي يفترض أن الخبير يتبع توزيع الاحتمالية الأعلى من حيث الإنتروبي بين جميع السياسات المثلى.

📖

المصطلحات

التعلم السلوكي

نهج تعلم تحت الإشراف يتعلم مباشرة تقليد إجراءات الخبير دون استنتاج وظيفة المكافأة بشكل صريح.

📖

المصطلحات

مسار الخبير

تسلسل من الحالات والإجراءات التي لوحظت لدى الخبير، ويمثل حلاً مثالياً أو شبه مثالي للمشكلة.

📖

المصطلحات

تكافؤ السياسة

مبدأ ينص على أن عدة وظائف مكافأة يمكن أن تؤدي إلى نفس السياسة المثلى، مما يخلق غموضًا في التعلم بالتعزيز العكسي.

📖

المصطلحات

التعلم بالتعزيز العكسي البيزي

نهج التعلم بالتعزيز العكسي الذي يستخدم الاستدلال البيزي لتقدير توزيع على وظائف المكافأة المحتملة.

📖

المصطلحات

تكلفة التفضيل

تحويل وظيفة المكافأة إلى وظيفة التكلفة، حيث يتعلم الوكيل تقليل التكلفة الإجمالية مع اتباع المظاهرات.

📖

المصطلحات

التعلم بالتعزيز العكسي الخصمي

طريقة التعلم بالتعزيز العكسي التي تستخدم لعبة خصومية حيث يتعلم المولد السياسة والمميز يميز مسارات الخبراء.

📖

المصطلحات

التعلم بالتعزيز المعكوس النشط

متغير من IRL حيث يمكن للعميل استجواب الخبير للحصول على عروض توضيحية إضافية وتقليل عدم اليقين.

📖

المصطلحات

استدلال دالة الهدف

العملية الرياضية لاستنتاج دالة الهدف الأساسية من ملاحظات سلوك الخبير.

📖

المصطلحات

تحيز المحاكاة

ميل العميل إلى الإفراط في محاكاة إجراءات الخبير دون فهم النية الأساسية، مما يؤدي إلى عمليات تعميم رديئة.

📖

المصطلحات

التعلم بالتعزيز مع تغذية راجعة من الخبير

مزيج من RL و IRL حيث يتدريب النموذج أولاً على بيانات الخبير، ثم يتم تحسينه مع التغذية الراجعة البشرية.

📖

المصطلحات

دالة السمات

دالة تقوم بتحويل الحالات-الإجراءات إلى مساحة السمات، وتستخدم لتمثيل دالة المكافأة بشكل خطي.

📖

المصطلحات

التعلم بالتعزيز المعكوس متعدد المهام

امتداد لـ IRL حيث يتم تعلم مهام متعددة في نفس الوقت من خلال مشاركة المعرفة بين دوال المكافأة.

قاموس الذكاء الاصطناعي

التعلم بالتعزيز العكسي

التعلم بالتعزيز العكسي بأقصى إنتروبي

التعلم السلوكي

مسار الخبير

تكافؤ السياسة

التعلم بالتعزيز العكسي البيزي

تكلفة التفضيل

التعلم بالتعزيز العكسي الخصمي

التعلم بالتعزيز المعكوس النشط

استدلال دالة الهدف

تحيز المحاكاة

التعلم بالتعزيز مع تغذية راجعة من الخبير

دالة السمات

التعلم بالتعزيز المعكوس متعدد المهام

لم يتم العثور على نتائج