फाइन-ट्यूनिंग
DPO (डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन)
RLHF का एक विकल्प जो सीधे मानव प्राथमिकता डेटा से मॉडल को अनुकूलित करता है, बिना किसी मध्यवर्ती रिवार्ड मॉडल की आवश्यकता के, एलाइनमेंट प्रक्रिया को सरल बनाता है।
← पीछे