এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
FP16 অপারেশন
হাফ-প্রিসিশন (১৬-বিট) ফ্লোটিং-পয়েন্ট গণনা যা টেনসর কোরগুলিতে FP32 এর তুলনায় ৮ গুণ বেশি থ্রুপুট প্রদান করে, মেমরি ব্যান্ডউইথ এবং শক্তি খরচ উল্লেখযোগ্যভাবে হ্রাস করে।
টেনসরফ্লোট-৩২ (TF32)
NVIDIA-এর হাইব্রিড সংখ্যাসূচক ফরম্যাট যা ৮-বিট এক্সপোনেন্ট (FP32 এর মতো) এবং ১০-বিট ম্যান্টিসা (FP16 এর মতো) ব্যবহার করে, অ্যাম্পিয়ার টেনসর কোরগুলির জন্য গতিশীল পরিসীমা এবং নির্ভুলতার মধ্যে সর্বোত্তম সমন্বয় প্রদান করে।
ওয়ার্প ম্যাট্রিক্স গুণ-সমষ্টি (WMMA)
CUDA API যা ৩২ থ্রেডের ওয়ার্পগুলিকে টেনসর কোরগুলিতে সরাসরি ম্যাট্রিক্স গুণ-সমষ্টি অপারেশন দক্ষতার সাথে সম্পাদন করতে দেয়, খণ্ডিত রেজিস্টারে অ্যাক্সেস সহ।
টেনসর কোরের জন্য CUDA কার্নেল
GPU প্রোগ্রাম যা বিশেষভাবে টেনসর কোর নির্দেশাবলী ব্যবহার করার জন্য অপ্টিমাইজ করা হয়েছে, সর্বোচ্চ ম্যাট্রিক্স থ্রুপুটের জন্য WMMA প্রিমিটিভ বা উচ্চ-স্তরের লাইব্রেরি ব্যবহার করে।
ম্যাট্রিক্স খণ্ডায়ন
ম্যাট্রিক্সগুলিকে ছোট ছোট খণ্ডে বিভক্ত করার কৌশল যা একটি ওয়ার্পের থ্রেডগুলির মধ্যে বিতরণ করা হয় টেনসর কোর ইউনিটে সমান্তরাল নির্বাহের জন্য, গণনা সম্পদের ব্যবহার অপ্টিমাইজ করে।
টেনসর কোর ব্যবহার
মেট্রিক যা পরিমাপ করে যে টেনসর কোরগুলি কত শতাংশ চক্রে উপযোগী গণনা সম্পাদন করে, অপ্টিমাইজেশনের কার্যকারিতা মূল্যায়ন এবং বাধা চিহ্নিত করার জন্য গুরুত্বপূর্ণ।
ইনফারেন্সের জন্য INT8 কোয়ান্টাইজেশন
নিউরাল নেটওয়ার্কের ওজন এবং অ্যাক্টিভেশনগুলিকে ৮-বিট পূর্ণসংখ্যায় রূপান্তর করা, নিয়ন্ত্রিত নির্ভুলতা হ্রাস সহ টেনসর কোরগুলিতে ৩২ গুণ পর্যন্ত ত্বরণ সক্ষম করে।
কিউব্লাসএলটি টেনসর কোর লাইব্রেরি
CUBLAS লাইব্রেরির এক্সটেনশন যা টেনসর কোরগুলির জন্য অপ্টিমাইজ করা, উচ্চ-পারফরম্যান্স GEMM (জেনারেল ম্যাট্রিক্স গুণ) রুটিন সরবরাহ করে মিশ্র-নির্ভুলতা ফরম্যাটের নেটিভ সমর্থন সহ।
শেয়ার্ড মেমোরি টাইলিং
টেনসর কোর এক্সেসের জন্য অপ্টিমাল টাইলগুলিতে জিপিইউ শেয়ার্ড মেমোরিতে ডেটা সংগঠিত করার কৌশল, ব্যাংক কনফ্লিক্ট হ্রাস করা এবং ব্যান্ডউইথ সর্বাধিক করা।
ওয়ার্প-লেভেল ম্যাট্রিক্স শিডিউলিং
ডেটা লেটেন্সি এবং নির্ভরতা বিবেচনা করে টেনসর কোর পাইপলাইনের ব্যবহার সর্বাধিক করার জন্য ওয়ার্প স্তরে ম্যাট্রিক্স অপারেশন শিডিউলিং।
টেনসর কোর রেজিস্টার প্রেশার
প্রতি এসএম-এ সীমিত রেজিস্টার সংখ্যার সাথে সম্পর্কিত সীমাবদ্ধতা, যা টেনসর কোর অপারেশন সমান্তরাল করার ক্ষমতাকে প্রভাবিত করে এবং অকুপেন্সি এবং ইউনিটের দক্ষ ব্যবহারের মধ্যে ভারসাম্য বজায় রাখার প্রয়োজন।
ডিপ লার্নিং বেঞ্চমার্ক
এমএলপার্ফের মতো টেস্ট স্যুট যা নিউরাল নেটওয়ার্কের বাস্তব-বিশ্বের ট্রেনিং এবং ইনফারেন্স ওয়ার্কলোডে টেনসর কোর অপ্টিমাইজেশনের পারফরম্যান্স মূল্যায়ন করে।
অটোমেটিক মিক্সড প্রিসিশন (এএমপি)
স্বয়ংক্রিয় অপারেশনাল প্রিসিশন নির্বাচন কৌশল যা যোগ্য টেনসর কোর অপারেশন চিহ্নিত করে এবং সংখ্যাসূচক স্থিতিশীলতার জন্য এফপি৩২ কপি বজায় রাখে।
টেনসর কোর মেমোরি কোলেসিং
টেনসর কোরের অ্যাক্সেস প্যাটার্নের সাথে সারিবদ্ধ করার জন্য মেমোরি অ্যাক্সেস অপ্টিমাইজেশন, থ্রুপুট সর্বাধিক করার জন্য লেনদেনগুলিকে কন্টিগুয়াস অ্যাক্সেসে গ্রুপ করা।
স্পার্স ম্যাট্রিক্স সাপোর্ট
স্ট্রাকচার্ড স্পার্স ম্যাট্রিক্স দক্ষতার সাথে প্রক্রিয়া করার জন্য অ্যাম্পিয়ার টেনসর কোরের ক্ষমতা, স্পার্সিটি সহ নিউরাল নেটওয়ার্কের জন্য ২x পর্যন্ত স্পিডআপ প্রদান করে।