GPT (المحول المدرب مسبقًا التوليدي)
RLHF (التعلم المعزز من التغذية الراجعة البشرية)
نموذج محاذاة حيث يتم تحسين النموذج من خلال التعلم المعزز باستخدام مكافئات مستمدة من تفضيلات بشرية لمعايرة سلوكه.
← رجوع