জিপিটি (জেনারেটিভ প্রি-ট্রেইনড ট্রান্সফরমার)
RLHF (Reinforcement Learning from Human Feedback)
একটি অ্যালাইনমেন্ট প্যারাডাইম যেখানে মডেলকে রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে ফাইন-টিউন করা হয়, মানব পছন্দ থেকে প্রাপ্ত রিওয়ার্ড ব্যবহার করে এর আচরণ ক্যালিব্রেট করার জন্য।
← ফিরে যান