এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
প্যারামিটার এফিসিয়েন্ট ফাইন-টিউনিং (PEFT)
প্রি-ট্রেইন্ড মডেলগুলিকে অ্যাডাপ্ট করার জন্য কৌশলগুলির একটি সেট যা শুধুমাত্র প্যারামিটারের একটি ছোট উপসেট পরিবর্তন করে, এইভাবে কম্পিউটেশনাল খরচ হ্রাস করে।
লোরা (লো-র্যাঙ্ক অ্যাডাপ্টেশন)
PEFT পদ্ধতি যা ট্রান্সফরমার লেয়ারে লো-র্যাঙ্ক ম্যাট্রিক্স ইনজেক্ট করে, শুধুমাত্র মূল প্যারামিটারের 0.1% দিয়ে দক্ষ ফাইন-টিউনিং সম্ভব করে।
অ্যাডাপ্টার্স
হালকা নিউরাল মডিউল যা ট্রান্সফরমার লেয়ারের মধ্যে সন্নিবেশিত হয়, মূল ওজন পরিবর্তন না করে নতুন টাস্কগুলিতে মডেল অ্যাডাপ্ট করার জন্য স্বাধীনভাবে প্রশিক্ষণযোগ্য।
ফ্ল্যাশ অ্যাটেনশন
আধুনিক GPU-এর জন্য অপ্টিমাইজড অ্যাটেনশনের একটি সঠিক অ্যালগরিদমিক বাস্তবায়ন, প্রশিক্ষণ গতি বাড়ানোর জন্য রিডান্ডেন্ট মেমরি রিড/রাইট দূর করে।
ডাইনামিক টোকেন প্রুনিং
অ্যাডাপ্টিভ কৌশল যা ফরওয়ার্ড পাসের সময় কম প্রাসঙ্গিক টোকেনগুলি নির্বাচনীভাবে সরিয়ে দেয়, অ্যাটেনশনের কম্পিউটেশনাল জটিলতা হ্রাস করার জন্য।
জিরো রিডানডেন্সি অপ্টিমাইজার (ZeRO)
অপ্টিমাইজেশন ফ্রেমওয়ার্ক যা একাধিক GPU-তে অপ্টিমাইজার স্টেট, গ্রেডিয়েন্ট এবং প্যারামিটার বিতরণ করে, প্রশিক্ষণের সময় মেমরি রিডানডেন্সি দূর করে।
মডেল প্যারালেলিজম
বিতরণ কৌশল যেখানে একটি মডেলের বিভিন্ন উপাদান বিভিন্ন কম্পিউটেশনাল ডিভাইসে স্থাপন করা হয়, একক GPU-এর মেমরি ছাড়িয়ে যাওয়া মডেলগুলি পরিচালনা করার জন্য।
পাইপলাইন প্যারালেলিজম
মডেল প্যারালেলিজমের একটি ফর্ম যেখানে লেয়ারগুলি বিভিন্ন GPU-তে বিতরণ করা হয় এবং রিসোর্স ব্যবহার উন্নত করার জন্য পাইপলাইনে প্রসেস করা হয়।
টেনসর সমান্তরালতা
একাধিক GPU-এর মধ্যে পৃথক ওজন টেনসর বিভক্ত করার কৌশল, যা একটি একক ডিভাইসের মেমরির চেয়ে বিস্তৃত স্তরগুলির প্রশিক্ষণ সক্ষম করে।
গ্রেডিয়েন্ট সঞ্চয়
ওজন আপডেট করার আগে একাধিক ফরওয়ার্ড পাসে গ্রেডিয়েন্ট জমা করে বৃহত্তর ব্যাচ সাইজ সিমুলেট করার পদ্ধতি।
স্তরভিত্তিক শিক্ষার হার হ্রাস
স্তরের গভীরতা অনুযায়ী বিভিন্ন শিক্ষার হার প্রয়োগ করার অপ্টিমাইজেশন কৌশল, সাধারণত উপরের স্তরগুলির জন্য উচ্চতর হার প্রয়োগ করা হয়।
কারিকুলাম শিক্ষা
ক্রমবর্ধমান কঠিনতার ক্রমে উদাহরণ উপস্থাপনের প্রশিক্ষণ পদ্ধতি, যা অভিসৃতি ত্বরান্বিত করে এবং চূড়ান্ত কর্মক্ষমতা উন্নত করে।
বিশেষজ্ঞদের মিশ্রণ (MoE)
একটি আর্কিটেকচার যেখানে প্রতিটি টোকেন একটি বিশেষজ্ঞ উপসেট দ্বারা প্রক্রিয়াজাত হয়, যা রৈখিক খরব বৃদ্ধি ছাড়াই মডেলের ক্ষমতা বাড়াতে সক্ষম করে।
বিপরীতমুখী স্তর
ট্রান্সফরমার স্তরগুলি আউটপুট থেকে অ্যাক্টিভেশন পুনর্গঠন করার জন্য ডিজাইন করা, মধ্যবর্তী অ্যাক্টিভেশন সংরক্ষণের প্রয়োজন দূর করে।
গ্রেডিয়েন্ট শব্দ ইনজেকশন
সাধারণীকরণ উন্নত করতে এবং সাবঅপটিমাল স্থানীয় মিনিমা এড়াতে প্রশিক্ষণের সময় গ্রেডিয়েন্টে গাউসিয়ান শব্দ যোগ করার নিয়মিতকরণ কৌশল।
অপ্টিমাইজার স্টেট শার্ডিং
একাধিক GPU-এ অপ্টিমাইজার স্টেট বিভক্ত করার মেমরি বিতরণ পদ্ধতি, যা প্রশিক্ষণের সময় মেমরি ফুটপ্রিন্ট উল্লেখযোগ্যভাবে হ্রাস করে।