Fine-tuning
DPO (التحسين المباشر للتفضيلات)
بديل لـ RLHF يحسن النموذج مباشرة من بيانات تفضيلات البشر دون الحاجة إلى نموذج مكافأة وسيط، مما يبسط عملية المحاذاة.
← رجوعبديل لـ RLHF يحسن النموذج مباشرة من بيانات تفضيلات البشر دون الحاجة إلى نموذج مكافأة وسيط، مما يبسط عملية المحاذاة.
← رجوع