🏠 হোম
বেঞ্চমার্ক
📊 সমস্ত বেঞ্চমার্ক 🦖 ডাইনোসর v1 🦖 ডাইনোসর v2 ✅ টু-ডু লিস্ট অ্যাপস 🎨 সৃজনশীল ফ্রি পেজ 🎯 FSACB - চূড়ান্ত শোকেস 🌍 অনুবাদ বেঞ্চমার্ক
মডেল
🏆 সেরা ১০টি মডেল 🆓 ফ্রি মডেল 📋 সমস্ত মডেল ⚙️ কিলো কোড
রিসোর্স
💬 প্রম্পট লাইব্রেরি 📖 এআই গ্লসারি 🔗 দরকারী লিঙ্ক

এআই গ্লসারি

কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান

238
বিভাগ
3,112
উপ-বিভাগ
36,890
শব্দ
📖
শব্দ

PPO (Proximal Policy Optimization)

আরএলএইচএফ-এ ব্যাপকভাবে ব্যবহৃত একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা প্রশিক্ষণের স্থিতিশীলতা নিশ্চিত করতে পলিসি আপডেটগুলোকে পূর্ববর্তী পলিসির কাছাকাছি রাখে।

📖
শব্দ

Reward Model

মানব পছন্দের ডেটার ওপর প্রশিক্ষিত একটি মডেল যা রিওয়ার্ড স্কোর পূর্বাভাস দেয় এবং আরএলএইচএফ প্রক্রিয়ায় উদ্দেশ্য ফাংশন হিসেবে কাজ করে।

📖
শব্দ

Human Preference Dataset

একটি ডেটাসেট যেখানে মানব মূল্যায়নকারীরা মডেলের বিভিন্ন প্রতিক্রিয়ার তুলনা করে র‍্যাঙ্কিং তৈরি করে, যা রিওয়ার্ড মডেল প্রশিক্ষণের ভিত্তি হিসেবে ব্যবহৃত হয়।

📖
শব্দ

Alignment

একটি প্রক্রিয়া যার মাধ্যমে এআই মডেলের আচরণকে মানবিক মূল্যবোধ, উদ্দেশ্য এবং পছন্দের সাথে সামঞ্জস্যপূর্ণ করা হয় যাতে নিরাপদ ও উপকারী মিথস্ক্রিয়া নিশ্চিত করা যায়।

📖
শব্দ

Supervised Fine-Tuning (SFT)

প্রাথমিক প্রশিক্ষণ পর্যায় যেখানে মডেল উচ্চমানের প্রদর্শনমূলক উদাহরণ থেকে শেখে, যা আরএলএইচএফ অ্যালাইনমেন্টের আগে একটি শক্ত ভিত্তি তৈরি করে।

📖
শব্দ

Safety Training

একগুচ্ছ কৌশল যার মাধ্যমে এআই মডেলকে আরও নিরাপদ করা হয়, ক্ষতিকর, পক্ষপাতদুষ্ট বা অনুপযুক্ত প্রতিক্রিয়া এড়াতে নির্দিষ্ট অ্যালাইনমেন্ট প্রক্রিয়া ব্যবহার করে।

📖
শব্দ

Reward Hacking

একটি ঘটনা যেখানে মডেল রিওয়ার্ড ফাংশনের ত্রুটিগুলোকে কাজে লাগিয়ে স্কোর সর্বাধিক করে, কিন্তু প্রকৃত কাঙ্ক্ষিত লক্ষ্য অর্জন করে না।

📖
শব্দ

Human-in-the-loop

একটি পদ্ধতি যেখানে মানুষ সক্রিয়ভাবে মডেলের প্রশিক্ষণ ও মূল্যায়ন চক্রে অংশগ্রহণ করে, ক্রমাগত সংশোধন ও প্রতিক্রিয়া প্রদান করে।

🔍

কোন ফলাফল পাওয়া যায়নি