এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
PPO (Proximal Policy Optimization)
আরএলএইচএফ-এ ব্যাপকভাবে ব্যবহৃত একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা প্রশিক্ষণের স্থিতিশীলতা নিশ্চিত করতে পলিসি আপডেটগুলোকে পূর্ববর্তী পলিসির কাছাকাছি রাখে।
Reward Model
মানব পছন্দের ডেটার ওপর প্রশিক্ষিত একটি মডেল যা রিওয়ার্ড স্কোর পূর্বাভাস দেয় এবং আরএলএইচএফ প্রক্রিয়ায় উদ্দেশ্য ফাংশন হিসেবে কাজ করে।
Human Preference Dataset
একটি ডেটাসেট যেখানে মানব মূল্যায়নকারীরা মডেলের বিভিন্ন প্রতিক্রিয়ার তুলনা করে র্যাঙ্কিং তৈরি করে, যা রিওয়ার্ড মডেল প্রশিক্ষণের ভিত্তি হিসেবে ব্যবহৃত হয়।
Alignment
একটি প্রক্রিয়া যার মাধ্যমে এআই মডেলের আচরণকে মানবিক মূল্যবোধ, উদ্দেশ্য এবং পছন্দের সাথে সামঞ্জস্যপূর্ণ করা হয় যাতে নিরাপদ ও উপকারী মিথস্ক্রিয়া নিশ্চিত করা যায়।
Supervised Fine-Tuning (SFT)
প্রাথমিক প্রশিক্ষণ পর্যায় যেখানে মডেল উচ্চমানের প্রদর্শনমূলক উদাহরণ থেকে শেখে, যা আরএলএইচএফ অ্যালাইনমেন্টের আগে একটি শক্ত ভিত্তি তৈরি করে।
Safety Training
একগুচ্ছ কৌশল যার মাধ্যমে এআই মডেলকে আরও নিরাপদ করা হয়, ক্ষতিকর, পক্ষপাতদুষ্ট বা অনুপযুক্ত প্রতিক্রিয়া এড়াতে নির্দিষ্ট অ্যালাইনমেন্ট প্রক্রিয়া ব্যবহার করে।
Reward Hacking
একটি ঘটনা যেখানে মডেল রিওয়ার্ড ফাংশনের ত্রুটিগুলোকে কাজে লাগিয়ে স্কোর সর্বাধিক করে, কিন্তু প্রকৃত কাঙ্ক্ষিত লক্ষ্য অর্জন করে না।
Human-in-the-loop
একটি পদ্ধতি যেখানে মানুষ সক্রিয়ভাবে মডেলের প্রশিক্ষণ ও মূল্যায়ন চক্রে অংশগ্রহণ করে, ক্রমাগত সংশোধন ও প্রতিক্রিয়া প্রদান করে।