قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227

الفئات

2,955

الفئات الفرعية

34,512

المصطلحات

📖

المصطلحات

PPO (تحسين السياسة التقاربية)

خوارزمية تعلم معزز مستخدمة على نطاق واسع في RLHF تحافظ على تحديثات السياسة قريبة من السياسة السابقة لضمان استقرار التدريب.

📖

المصطلحات

نموذج المكافأة

نموذج مدرب على بيانات التفضيلات البشرية للتنبؤ بدرجات المكافأة، ويعمل كدالة هدف في عملية RLHF.

📖

المصطلحات

مجموعة بيانات التفضيلات البشرية

مجموعة بيانات تم جمعها حيث يقارن المقيمون البشريون استجابات النموذج المختلفة، مما ينشئ تصنيفات تعمل كأساس لتدريب نموذج المكافأة.

📖

المصطلحات

المحاذاة

عملية تهدف إلى مطابقة سلوك نماذج الذكاء الاصطناعي مع القيم والنوايا والتفضيلات البشرية لضمان تفاعلات آمنة ومفيدة.

📖

المصطلحات

الضبط الدقيق تحت الإشراف (SFT)

مرحلة تدريب أولية يتعلم فيها النموذج من أمثلة توضيحية عالية الجودة، مما يخلق أساسًا قويًا قبل محاذاة RLHF.

📖

المصطلحات

تدريب السلامة

مجموعة من التقنيات التي تهدف إلى جعل نماذج الذكاء الاصطناعي أكثر أمانًا عن طريق تجنب الاستجابات الضارة أو المتحيزة أو غير المناسبة من خلال آليات محاذاة محددة.

📖

المصطلحات