🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

التعلم بالتعزيز العكسي

طريقة تعلم يقوم فيها الوكيل باستنتاج وظيفة المكافأة من مظاهرات الخبراء بدلاً من تلقي مكافآت صريحة.

📖
المصطلحات

التعلم بالتعزيز العكسي بأقصى إنتروبي

متغير من التعلم بالتعزيز العكسي يفترض أن الخبير يتبع توزيع الاحتمالية الأعلى من حيث الإنتروبي بين جميع السياسات المثلى.

📖
المصطلحات

التعلم السلوكي

نهج تعلم تحت الإشراف يتعلم مباشرة تقليد إجراءات الخبير دون استنتاج وظيفة المكافأة بشكل صريح.

📖
المصطلحات

مسار الخبير

تسلسل من الحالات والإجراءات التي لوحظت لدى الخبير، ويمثل حلاً مثالياً أو شبه مثالي للمشكلة.

📖
المصطلحات

تكافؤ السياسة

مبدأ ينص على أن عدة وظائف مكافأة يمكن أن تؤدي إلى نفس السياسة المثلى، مما يخلق غموضًا في التعلم بالتعزيز العكسي.

📖
المصطلحات

التعلم بالتعزيز العكسي البيزي

نهج التعلم بالتعزيز العكسي الذي يستخدم الاستدلال البيزي لتقدير توزيع على وظائف المكافأة المحتملة.

📖
المصطلحات

تكلفة التفضيل

تحويل وظيفة المكافأة إلى وظيفة التكلفة، حيث يتعلم الوكيل تقليل التكلفة الإجمالية مع اتباع المظاهرات.

📖
المصطلحات

التعلم بالتعزيز العكسي الخصمي

طريقة التعلم بالتعزيز العكسي التي تستخدم لعبة خصومية حيث يتعلم المولد السياسة والمميز يميز مسارات الخبراء.

📖
المصطلحات

التعلم بالتعزيز المعكوس النشط

متغير من IRL حيث يمكن للعميل استجواب الخبير للحصول على عروض توضيحية إضافية وتقليل عدم اليقين.

📖
المصطلحات

استدلال دالة الهدف

العملية الرياضية لاستنتاج دالة الهدف الأساسية من ملاحظات سلوك الخبير.

📖
المصطلحات

تحيز المحاكاة

ميل العميل إلى الإفراط في محاكاة إجراءات الخبير دون فهم النية الأساسية، مما يؤدي إلى عمليات تعميم رديئة.

📖
المصطلحات

التعلم بالتعزيز مع تغذية راجعة من الخبير

مزيج من RL و IRL حيث يتدريب النموذج أولاً على بيانات الخبير، ثم يتم تحسينه مع التغذية الراجعة البشرية.

📖
المصطلحات

دالة السمات

دالة تقوم بتحويل الحالات-الإجراءات إلى مساحة السمات، وتستخدم لتمثيل دالة المكافأة بشكل خطي.

📖
المصطلحات

التعلم بالتعزيز المعكوس متعدد المهام

امتداد لـ IRL حيث يتم تعلم مهام متعددة في نفس الوقت من خلال مشاركة المعرفة بين دوال المكافأة.

🔍

لم يتم العثور على نتائج