বিশেষজ্ঞদের মিশ্রণ - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

গেটিং নেটওয়ার্ক (Gating Network)

MoE আর্কিটেকচারের মধ্যে একটি নিউরাল সাব-নেটওয়ার্ক যা প্রতিটি বিশেষজ্ঞের জন্য অ্যাক্টিভেশন ওজন গণনার দায়িত্বে থাকে, সাধারণত বিশেষজ্ঞদের উপর সম্ভাব্যতা বন্টন তৈরি করতে সফটম্যাক্স ফাংশন ব্যবহার করে।

📖

শব্দ

বিশেষজ্ঞ (Expert)

MoE আর্কিটেকচারের মধ্যে একটি পৃথক সাব-মডেল, সাধারণত একটি নিউরাল নেটওয়ার্ক, যা ইনপুট ডেটা বন্টনের একটি নির্দিষ্ট উপ-স্থানে বিশেষজ্ঞতা অর্জনের জন্য প্রশিক্ষিত।

📖

শব্দ

টপ-কে গেটিং (Top-k Gating)

গেটিং কৌশল যেখানে শুধুমাত্র সর্বোচ্চ অ্যাক্টিভেশন ওজন সহ k সংখ্যক বিশেষজ্ঞ একটি নির্দিষ্ট ইনপুটের জন্য সক্রিয় করা হয়, যার ফলে মডেলের কর্মক্ষমতা বজায় রাখার পাশাপাশি গণনীয় খরচ হ্রাস পায়।

📖

শব্দ

রাউটিং মেকানিজম (Routing Mechanism)

অ্যালগরিদমিক প্রক্রিয়া যা নির্ধারণ করে কিভাবে টোকেন বা ইনপুট উদাহরণগুলি একটি MoE মডেলে বিভিন্ন বিশেষজ্ঞের কাছে বরাদ্দ করা হয়, যা সরাসরি দক্ষতা এবং লোড ভারসাম্যকে প্রভাবিত করে।

📖

শব্দ

সহায়ক ক্ষতি (Auxiliary Loss)

MoE মডেলের সামগ্রিক লস ফাংশনে যোগ করা একটি নিয়মিতকরণ শব্দ যা বিশেষজ্ঞদের মধ্যে ট্রাফিকের ভারসাম্যপূর্ণ বন্টনকে উত্সাহিত করে, যাতে বিশেষজ্ঞদের একটি ছোট উপসেট আধিপত্য বিস্তার করতে না পারে।

📖

শব্দ

MoE মডেলগুলিতে ঘটনা যেখানে সক্রিয় বিশেষজ্ঞদের মোট ক্ষমতা একটি স্ট্যান্ডার্ড ঘন মডেলের ক্ষমতাকে ছাড়িয়ে যায়, যা গণনার খরচ আনুপাতিকভাবে বৃদ্ধি না করেই প্যারামিটারের সংখ্যার কার্যকর স্কেলিং ermöglicht।

📖

শব্দ

গভীরতার মিশ্রণ (Mixture-of-Depths)

MoE আর্কিটেকচারের একটি বৈকল্পিক যেখানে রাউটিং পৃথক বিশেষজ্ঞদের মধ্যে নয়, বরং একই ট্রান্সফরমার নেটওয়ার্কের বিভিন্ন গভীরতার মধ্যে ঘটে, স্তরগুলিকে নির্বাচনীভাবে সক্রিয় করে।

📖

শব্দ

স্পার্স MoE (Sparse MoE)

Mixture of Experts-এর বাস্তবায়ন যেখানে প্রতিটি টোকেনের জন্য শুধুমাত্র বিশেষজ্ঞদের একটি ভগ্নাংশ সক্রিয় করা হয়, যা টোকেন প্রতি ইনফারেন্স খরচ স্থির রেখে মডেলের প্যারামিটারের সংখ্যা ব্যাপকভাবে বৃদ্ধি করতে দেয়।

📖

শব্দ

MoE ঘন (Dense MoE)

MoE আর্কিটেকচারের একটি বৈকল্পিক যেখানে সমস্ত বিশেষজ্ঞ গেটিং নেটওয়ার্ক দ্বারা ওজনযুক্ত হয়ে চূড়ান্ত আউটপুটে অবদান রাখে, বিরল সংস্করণগুলির বিপরীতে যেগুলি কেবল একটি উপসেট সক্রিয় করে।

📖

শব্দ

লোড ব্যালেন্সিং

MoE মডেলগুলির প্রশিক্ষণে একটি সমালোচনামূলক সমস্যা, যা নিশ্চিত করে যে প্রতিটি বিশেষজ্ঞ প্রশিক্ষণ ডেটার প্রায় সমান পরিমাণ পায় যাতে কম ব্যবহার বা অত্যধিক বিশেষীকরণ এড়ানো যায়।

📖

শব্দ

অ্যাডাপ্টার মিশ্রণ

অ্যাডাপ্টারগুলিতে MoE নীতির প্রয়োগ, যা প্রাক-প্রশিক্ষিত বেস মডেলে সন্নিবেশিত ছোট প্যারামেট্রিক মডিউল, যেখানে একটি গেটিং নেটওয়ার্ক সবচেয়ে প্রাসঙ্গিক অ্যাডাপ্টারগুলি নির্বাচন এবং সংযুক্ত করে।

📖

শব্দ

শর্তাধীন গণনা

MoE মডেলগুলির মৌলিক নীতি, যার মাধ্যমে গণনা (বিশেষজ্ঞদের সক্রিয়করণ) ইনপুট দ্বারা শর্তযুক্ত হয়, যা গতিশীল এবং দক্ষ গণনামূলক সম্পদ ব্যবহারের অনুমতি দেয়।

📖

শব্দ

গেটিং নয়েজ

একটি নিয়মিতকরণ কৌশল যা গেটিং নেটওয়ার্কের লজিটে সফটম্যাক্স ফাংশন প্রয়োগ করার আগে এলোমেলো শব্দ (যেমন গাউসিয়ান নয়েজ) যোগ করে অন্বেষণকে উত্সাহিত এবং রাউটিংয়ের দৃঢ়তা উন্নত করে।

📖

শব্দ

সফটম্যাক্স মিশ্রণ

MoE-এর একটি বিশেষীকরণ যেখানে বিশেষজ্ঞরা পৃথক সফটম্যাক্স স্তর, জটিল মাল্টিমোডাল ডিস্ট্রিবিউশন মডেল করার জন্য ব্যবহৃত হয়, বিশেষ করে প্রাকৃতিক ভাষা প্রক্রিয়াকরণে।

📖

শব্দ

রাউটিং খরচ

গেটিং নেটওয়ার্কের মূল্যায়ন এবং নির্বাচিত বিশেষজ্ঞদের কাছে ডেটা রাউট করার সাথে যুক্ত গণনামূলক ওভারহেড, দক্ষ MoE মডেল ডিজাইনের একটি মূল ফ্যাক্টর।

📖

শব্দ

হেড মিশ্রণ

ট্রান্সফরমারগুলির মাল্টি-হেড অ্যাটেনশন মেকানিজমে MoE প্যারাডাইমের প্রয়োগ, যেখানে একটি গেটিং নেটওয়ার্ক একটি প্রদত্ত ইনপুটের জন্য সক্রিয় করার জন্য অ্যাটেনশন হেডের একটি উপসেট নির্বাচন করে।

এআই গ্লসারি

গেটিং নেটওয়ার্ক (Gating Network)

বিশেষজ্ঞ (Expert)

টপ-কে গেটিং (Top-k Gating)

রাউটিং মেকানিজম (Routing Mechanism)

সহায়ক ক্ষতি (Auxiliary Loss)

অতিক্ষমতা (Overcapacity)

গভীরতার মিশ্রণ (Mixture-of-Depths)

স্পার্স MoE (Sparse MoE)

MoE ঘন (Dense MoE)

লোড ব্যালেন্সিং

অ্যাডাপ্টার মিশ্রণ

শর্তাধীন গণনা

গেটিং নয়েজ

সফটম্যাক্স মিশ্রণ

রাউটিং খরচ

হেড মিশ্রণ

কোন ফলাফল পাওয়া যায়নি