🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

PPO (تحسين السياسة التقاربية)

خوارزمية تعلم معزز مستخدمة على نطاق واسع في RLHF تحافظ على تحديثات السياسة قريبة من السياسة السابقة لضمان استقرار التدريب.

📖
المصطلحات

نموذج المكافأة

نموذج مدرب على بيانات التفضيلات البشرية للتنبؤ بدرجات المكافأة، ويعمل كدالة هدف في عملية RLHF.

📖
المصطلحات

مجموعة بيانات التفضيلات البشرية

مجموعة بيانات تم جمعها حيث يقارن المقيمون البشريون استجابات النموذج المختلفة، مما ينشئ تصنيفات تعمل كأساس لتدريب نموذج المكافأة.

📖
المصطلحات

المحاذاة

عملية تهدف إلى مطابقة سلوك نماذج الذكاء الاصطناعي مع القيم والنوايا والتفضيلات البشرية لضمان تفاعلات آمنة ومفيدة.

📖
المصطلحات

الضبط الدقيق تحت الإشراف (SFT)

مرحلة تدريب أولية يتعلم فيها النموذج من أمثلة توضيحية عالية الجودة، مما يخلق أساسًا قويًا قبل محاذاة RLHF.

📖
المصطلحات

تدريب السلامة

مجموعة من التقنيات التي تهدف إلى جعل نماذج الذكاء الاصطناعي أكثر أمانًا عن طريق تجنب الاستجابات الضارة أو المتحيزة أو غير المناسبة من خلال آليات محاذاة محددة.

📖
المصطلحات

اختراق المكافأة

ظاهرة يستغل فيها النموذج الثغرات في دالة المكافأة لزيادة درجاته إلى أقصى حد دون تحقيق الهدف المنشود حقًا.

📖
المصطلحات

الإنسان في الحلقة

نهج يشارك فيه البشر بنشاط في دورة تدريب وتقييم النموذج، ويقدمون تصحيحات وملاحظات مستمرة.

🔍

لم يتم العثور على نتائج