এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
কোয়ান্টাইজেশন অ্যাওয়ার কোয়ান্টাইজেশন (QAT)
একটি অপ্টিমাইজেশন পদ্ধতি যেখানে কম-নির্ভুল কোয়ান্টাইজেশনের সিমুলেশন প্রশিক্ষণের সময় একীভূত করা হয়, যা মডেলটিকে কোয়ান্টাইজেশন-প্ররোচিত পারফরম্যান্স হ্রাস কমানোর জন্য তার ওজনগুলি অভিযোজিত করতে দেয়।
লো-র্যাঙ্ক অ্যাডাপ্টেশন (LoRA)
একটি দক্ষ অভিযোজন পদ্ধতি যা একটি প্রাক-প্রশিক্ষিত মডেলের ওজনগুলি হিমায়িত করে এবং ছোট নিম্ন-র্যাঙ্কের বিভাজনযোগ্য ম্যাট্রিক্স ইনজেক্ট করে, ফাইন-টিউনিংয়ের জন্য প্রশিক্ষণযোগ্য প্যারামিটারের সংখ্যা ব্যাপকভাবে হ্রাস করে যখন পারফরম্যান্স সংরক্ষণ করে।
৮-বিট ফ্লোটিং পয়েন্ট রিপ্রেজেন্টেশন (FP8)
অত্যন্ত কম নির্ভুলতার ডেটা ফরম্যাট যা ফ্লোটিং পয়েন্ট সংখ্যা উপস্থাপনের জন্য ৮ বিট ব্যবহার করে, আধুনিক GPU-তে উল্লেখযোগ্য ত্বরণ সক্ষম করার সময় বড় মডেলগুলির প্রশিক্ষণের স্থিতিশীলতা বজায় রাখে।
৪-বিট ইন্টিজার কোয়ান্টাইজেশন (INT4)
চরম কম্প্রেশন কৌশল যা মডেলের ওজনগুলিকে ৪ বিটে উপস্থাপন করে, যার জন্য উন্নত কোয়ান্টাইজেশন অ্যালগরিদম এবং প্রায়শই উল্লেখযোগ্য তথ্য হ্রাসের ক্ষতিপূরণের জন্য আংশিক পুনঃপ্রশিক্ষণের প্রয়োজন হয়।
কোয়ান্টাইজেশন বায়াস কম্পেনসেশন (Q-Bias)
পোস্ট-কোয়ান্টাইজেশন সামঞ্জস্য কৌশল যা নির্ভুলতা হ্রাসের দ্বারা প্রবর্তিত পক্ষপাতগুলি পদ্ধতিগতভাবে বিশ্লেষণ ও সংশোধন করে, প্রায়শই নরমালাইজেশন স্তর বা লিনিয়ার স্তরের বায়াস পরিবর্তন করে।
কোয়ান্টাইজেশন গ্রিড সার্চ অপ্টিমাইজেশন
বিভিন্ন কোয়ান্টাইজেশন কনফিগারেশন (স্তর অনুযায়ী, গ্রুপ অনুযায়ী, মিশ্র) এর পদ্ধতিগত অন্বেষণের পদ্ধতি যা একটি প্রদত্ত আর্কিটেকচারের জন্য মডেলের আকার, গতি এবং নির্ভুলতার মধ্যে সর্বোত্তম ভারসাম্য প্রদানকারী সর্বোত্তম স্কিম চিহ্নিত করে।
স্পেকুলেটিভ ইনফারেন্স
জেনারেটিভ ইনফারেন্স ত্বরণ কৌশল যেখানে একটি ছোট 'ড্রাফ্ট' মডেল দ্রুত একাধিক টোকেন প্রস্তাব করে, যা পরে টার্গেট বড় মডেল দ্বারা সমান্তরালভাবে বৈধতা প্রাপ্ত হয়, ব্যয়বহুল গণনার ধাপের মোট সংখ্যা হ্রাস করে।
ট্রাংকেটেড সিঙ্গুলার ভ্যালু ডিকম্পোজিশন (Truncated SVD)
SVD প্রয়োগের পরে ক্ষুদ্রতম সিঙ্গুলার মানগুলির ছাঁটাই একটি নিম্ন-র্যাঙ্কের যোগফল দ্বারা একটি ওজন ম্যাট্রিক্স আনুমানিক করার জন্য, এইভাবে নিয়ন্ত্রিত ত্রুটি সহ প্যারামিটার এবং গণনা হ্রাস করে।
ব্লক-ভিত্তিক কোয়ান্টাইজেশন (Block-wise Quantization)
ওজন টেনসরগুলিকে ছোট ছোট ব্লকে বিভক্ত করে এবং প্রতিটি ব্লকে স্বাধীনভাবে কোয়ান্টাইজেশন প্রয়োগ করার কৌশল, যা মানের বন্টনকে আরও ভালভাবে সংরক্ষণ করে এবং গ্লোবাল কোয়ান্টাইজেশনের তুলনায় সামগ্রিক ত্রুটি হ্রাস করে।
স্ট্রাকচার্ড স্পার্সিটি (Structured Sparsity)
প্রুনিং-এর একটি রূপ যা সরানো ওজনের উপর নিয়মিত প্যাটার্ন (সারি, কলাম বা ব্লক ভিত্তিক) আরোপ করে, যা আনস্ট্রাকচার্ড র্যান্ডম স্পার্সিটির বিপরীতে CPU/GPU-তে হার্ডওয়্যার এক্সিলারেশন কার্যকরভাবে ব্যবহার করতে সক্ষম করে।