قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
PPO (تحسين السياسة التقاربية)
خوارزمية تعلم معزز مستخدمة على نطاق واسع في RLHF تحافظ على تحديثات السياسة قريبة من السياسة السابقة لضمان استقرار التدريب.
نموذج المكافأة
نموذج مدرب على بيانات التفضيلات البشرية للتنبؤ بدرجات المكافأة، ويعمل كدالة هدف في عملية RLHF.
مجموعة بيانات التفضيلات البشرية
مجموعة بيانات تم جمعها حيث يقارن المقيمون البشريون استجابات النموذج المختلفة، مما ينشئ تصنيفات تعمل كأساس لتدريب نموذج المكافأة.
المحاذاة
عملية تهدف إلى مطابقة سلوك نماذج الذكاء الاصطناعي مع القيم والنوايا والتفضيلات البشرية لضمان تفاعلات آمنة ومفيدة.
الضبط الدقيق تحت الإشراف (SFT)
مرحلة تدريب أولية يتعلم فيها النموذج من أمثلة توضيحية عالية الجودة، مما يخلق أساسًا قويًا قبل محاذاة RLHF.
تدريب السلامة
مجموعة من التقنيات التي تهدف إلى جعل نماذج الذكاء الاصطناعي أكثر أمانًا عن طريق تجنب الاستجابات الضارة أو المتحيزة أو غير المناسبة من خلال آليات محاذاة محددة.
اختراق المكافأة
ظاهرة يستغل فيها النموذج الثغرات في دالة المكافأة لزيادة درجاته إلى أقصى حد دون تحقيق الهدف المنشود حقًا.
الإنسان في الحلقة
نهج يشارك فيه البشر بنشاط في دورة تدريب وتقييم النموذج، ويقدمون تصحيحات وملاحظات مستمرة.