ট্রান্সফরমার অপ্টিমাইজেশন - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

প্যারামিটার এফিসিয়েন্ট ফাইন-টিউনিং (PEFT)

প্রি-ট্রেইন্ড মডেলগুলিকে অ্যাডাপ্ট করার জন্য কৌশলগুলির একটি সেট যা শুধুমাত্র প্যারামিটারের একটি ছোট উপসেট পরিবর্তন করে, এইভাবে কম্পিউটেশনাল খরচ হ্রাস করে।

📖

শব্দ

লোরা (লো-র্যাঙ্ক অ্যাডাপ্টেশন)

PEFT পদ্ধতি যা ট্রান্সফরমার লেয়ারে লো-র্যাঙ্ক ম্যাট্রিক্স ইনজেক্ট করে, শুধুমাত্র মূল প্যারামিটারের 0.1% দিয়ে দক্ষ ফাইন-টিউনিং সম্ভব করে।

📖

শব্দ

অ্যাডাপ্টার্স

হালকা নিউরাল মডিউল যা ট্রান্সফরমার লেয়ারের মধ্যে সন্নিবেশিত হয়, মূল ওজন পরিবর্তন না করে নতুন টাস্কগুলিতে মডেল অ্যাডাপ্ট করার জন্য স্বাধীনভাবে প্রশিক্ষণযোগ্য।

📖

শব্দ

ফ্ল্যাশ অ্যাটেনশন

আধুনিক GPU-এর জন্য অপ্টিমাইজড অ্যাটেনশনের একটি সঠিক অ্যালগরিদমিক বাস্তবায়ন, প্রশিক্ষণ গতি বাড়ানোর জন্য রিডান্ডেন্ট মেমরি রিড/রাইট দূর করে।

📖

শব্দ

ডাইনামিক টোকেন প্রুনিং

অ্যাডাপ্টিভ কৌশল যা ফরওয়ার্ড পাসের সময় কম প্রাসঙ্গিক টোকেনগুলি নির্বাচনীভাবে সরিয়ে দেয়, অ্যাটেনশনের কম্পিউটেশনাল জটিলতা হ্রাস করার জন্য।

📖

শব্দ

জিরো রিডানডেন্সি অপ্টিমাইজার (ZeRO)

অপ্টিমাইজেশন ফ্রেমওয়ার্ক যা একাধিক GPU-তে অপ্টিমাইজার স্টেট, গ্রেডিয়েন্ট এবং প্যারামিটার বিতরণ করে, প্রশিক্ষণের সময় মেমরি রিডানডেন্সি দূর করে।

📖

শব্দ

মডেল প্যারালেলিজম

বিতরণ কৌশল যেখানে একটি মডেলের বিভিন্ন উপাদান বিভিন্ন কম্পিউটেশনাল ডিভাইসে স্থাপন করা হয়, একক GPU-এর মেমরি ছাড়িয়ে যাওয়া মডেলগুলি পরিচালনা করার জন্য।

📖

শব্দ

পাইপলাইন প্যারালেলিজম

মডেল প্যারালেলিজমের একটি ফর্ম যেখানে লেয়ারগুলি বিভিন্ন GPU-তে বিতরণ করা হয় এবং রিসোর্স ব্যবহার উন্নত করার জন্য পাইপলাইনে প্রসেস করা হয়।

📖

শব্দ

টেনসর সমান্তরালতা

একাধিক GPU-এর মধ্যে পৃথক ওজন টেনসর বিভক্ত করার কৌশল, যা একটি একক ডিভাইসের মেমরির চেয়ে বিস্তৃত স্তরগুলির প্রশিক্ষণ সক্ষম করে।

📖

শব্দ

গ্রেডিয়েন্ট সঞ্চয়

ওজন আপডেট করার আগে একাধিক ফরওয়ার্ড পাসে গ্রেডিয়েন্ট জমা করে বৃহত্তর ব্যাচ সাইজ সিমুলেট করার পদ্ধতি।

📖

শব্দ

স্তরভিত্তিক শিক্ষার হার হ্রাস

স্তরের গভীরতা অনুযায়ী বিভিন্ন শিক্ষার হার প্রয়োগ করার অপ্টিমাইজেশন কৌশল, সাধারণত উপরের স্তরগুলির জন্য উচ্চতর হার প্রয়োগ করা হয়।

📖

শব্দ

কারিকুলাম শিক্ষা

ক্রমবর্ধমান কঠিনতার ক্রমে উদাহরণ উপস্থাপনের প্রশিক্ষণ পদ্ধতি, যা অভিসৃতি ত্বরান্বিত করে এবং চূড়ান্ত কর্মক্ষমতা উন্নত করে।

📖

শব্দ

বিশেষজ্ঞদের মিশ্রণ (MoE)

একটি আর্কিটেকচার যেখানে প্রতিটি টোকেন একটি বিশেষজ্ঞ উপসেট দ্বারা প্রক্রিয়াজাত হয়, যা রৈখিক খরব বৃদ্ধি ছাড়াই মডেলের ক্ষমতা বাড়াতে সক্ষম করে।

📖

শব্দ

বিপরীতমুখী স্তর

ট্রান্সফরমার স্তরগুলি আউটপুট থেকে অ্যাক্টিভেশন পুনর্গঠন করার জন্য ডিজাইন করা, মধ্যবর্তী অ্যাক্টিভেশন সংরক্ষণের প্রয়োজন দূর করে।

📖

শব্দ

গ্রেডিয়েন্ট শব্দ ইনজেকশন

সাধারণীকরণ উন্নত করতে এবং সাবঅপটিমাল স্থানীয় মিনিমা এড়াতে প্রশিক্ষণের সময় গ্রেডিয়েন্টে গাউসিয়ান শব্দ যোগ করার নিয়মিতকরণ কৌশল।

📖

শব্দ

অপ্টিমাইজার স্টেট শার্ডিং

একাধিক GPU-এ অপ্টিমাইজার স্টেট বিভক্ত করার মেমরি বিতরণ পদ্ধতি, যা প্রশিক্ষণের সময় মেমরি ফুটপ্রিন্ট উল্লেখযোগ্যভাবে হ্রাস করে।

এআই গ্লসারি

প্যারামিটার এফিসিয়েন্ট ফাইন-টিউনিং (PEFT)

লোরা (লো-র্যাঙ্ক অ্যাডাপ্টেশন)

অ্যাডাপ্টার্স

ফ্ল্যাশ অ্যাটেনশন

ডাইনামিক টোকেন প্রুনিং

জিরো রিডানডেন্সি অপ্টিমাইজার (ZeRO)

মডেল প্যারালেলিজম

পাইপলাইন প্যারালেলিজম

টেনসর সমান্তরালতা

গ্রেডিয়েন্ট সঞ্চয়

স্তরভিত্তিক শিক্ষার হার হ্রাস

কারিকুলাম শিক্ষা

বিশেষজ্ঞদের মিশ্রণ (MoE)

বিপরীতমুখী স্তর

গ্রেডিয়েন্ট শব্দ ইনজেকশন

অপ্টিমাইজার স্টেট শার্ডিং

কোন ফলাফল পাওয়া যায়নি