মানব প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শিক্ষা (আরএলএইচএফ)

📖

শব্দ

PPO (Proximal Policy Optimization)

আরএলএইচএফ-এ ব্যাপকভাবে ব্যবহৃত একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা প্রশিক্ষণের স্থিতিশীলতা নিশ্চিত করতে পলিসি আপডেটগুলোকে পূর্ববর্তী পলিসির কাছাকাছি রাখে।

📖

শব্দ

Reward Model

মানব পছন্দের ডেটার ওপর প্রশিক্ষিত একটি মডেল যা রিওয়ার্ড স্কোর পূর্বাভাস দেয় এবং আরএলএইচএফ প্রক্রিয়ায় উদ্দেশ্য ফাংশন হিসেবে কাজ করে।

📖

শব্দ

Human Preference Dataset

একটি ডেটাসেট যেখানে মানব মূল্যায়নকারীরা মডেলের বিভিন্ন প্রতিক্রিয়ার তুলনা করে র‍্যাঙ্কিং তৈরি করে, যা রিওয়ার্ড মডেল প্রশিক্ষণের ভিত্তি হিসেবে ব্যবহৃত হয়।

📖

শব্দ

Alignment

একটি প্রক্রিয়া যার মাধ্যমে এআই মডেলের আচরণকে মানবিক মূল্যবোধ, উদ্দেশ্য এবং পছন্দের সাথে সামঞ্জস্যপূর্ণ করা হয় যাতে নিরাপদ ও উপকারী মিথস্ক্রিয়া নিশ্চিত করা যায়।

📖

শব্দ

Supervised Fine-Tuning (SFT)

প্রাথমিক প্রশিক্ষণ পর্যায় যেখানে মডেল উচ্চমানের প্রদর্শনমূলক উদাহরণ থেকে শেখে, যা আরএলএইচএফ অ্যালাইনমেন্টের আগে একটি শক্ত ভিত্তি তৈরি করে।

📖

শব্দ

Safety Training

একগুচ্ছ কৌশল যার মাধ্যমে এআই মডেলকে আরও নিরাপদ করা হয়, ক্ষতিকর, পক্ষপাতদুষ্ট বা অনুপযুক্ত প্রতিক্রিয়া এড়াতে নির্দিষ্ট অ্যালাইনমেন্ট প্রক্রিয়া ব্যবহার করে।

📖

শব্দ

Reward Hacking

একটি ঘটনা যেখানে মডেল রিওয়ার্ড ফাংশনের ত্রুটিগুলোকে কাজে লাগিয়ে স্কোর সর্বাধিক করে, কিন্তু প্রকৃত কাঙ্ক্ষিত লক্ষ্য অর্জন করে না।

📖

শব্দ

Human-in-the-loop

একটি পদ্ধতি যেখানে মানুষ সক্রিয়ভাবে মডেলের প্রশিক্ষণ ও মূল্যায়ন চক্রে অংশগ্রহণ করে, ক্রমাগত সংশোধন ও প্রতিক্রিয়া প্রদান করে।

এআই গ্লসারি

PPO (Proximal Policy Optimization)

Reward Model

Human Preference Dataset

Alignment

Supervised Fine-Tuning (SFT)

Safety Training

Reward Hacking

Human-in-the-loop

কোন ফলাফল পাওয়া যায়নি