এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
বাইট পেয়ার এনকোডিং (BPE)
ডেটা কম্প্রেশন অ্যালগরিদম যা টোকেনাইজেশনের জন্য অভিযোজিত, যা সবচেয়ে ঘন ঘন অক্ষর জোড়াগুলিকে পুনরাবৃত্তিমূলকভাবে একত্রিত করে অপ্টিমাইজড সাবওয়ার্ড ভোকাবুলারি তৈরি করে।
ওয়ার্ডপিস
গুগল দ্বারা বিকশিত BPE-এর একটি বৈকল্পিক যা টোকেন একত্রিত করার সময় ভাষার সম্ভাবনা সর্বাধিক করে, বিশেষত BERT এবং এর বৈকল্পিক মডেলগুলিতে ব্যবহৃত হয়।
ইউনিগ্রাম ল্যাঙ্গুয়েজ মডেল
একটি ইউনিগ্রাম ভাষা মডেলের উপর ভিত্তি করে টোকেনাইজেশন পদ্ধতি যা সিকোয়েন্সে টোকেনগুলির পণ্য সম্ভাবনা সর্বাধিক করে সেরা বিভাজন নির্বাচন করে।
সেন্টেন্সপিস
ভাষা-স্বাধীন টোকেনাইজেশন লাইব্রেরি যা টেক্সটকে একটি কাঁচা ইউনিকোড সিকোয়েন্স হিসাবে প্রক্রিয়া করে, প্রতিটি ভাষার জন্য নির্দিষ্ট প্রি-প্রসেসিংয়ের প্রয়োজনীয়তা দূর করে।
ভোকাবুলারি সাইজ
সমালোচনামূলক প্যারামিটার যা একটি মডেলের ভোকাবুলারিতে মোট অনন্য টোকেনের সংখ্যা নির্ধারণ করে, যা সরাসরি মডেলের আকার এবং ভাষাগত বৈচিত্র্য পরিচালনার ক্ষমতাকে প্রভাবিত করে।
বিশেষ টোকেন
সংরক্ষিত টোকেন যেমন [CLS], [SEP], [MASK], [PAD] যা সিকোয়েন্স সীমাবদ্ধ করতে, উপাদান লুকাতে বা ব্যাচগুলিকে অভিন্ন দৈর্ঘ্যে পূরণ করতে ব্যবহৃত হয়।
টোকেনাইজার ট্রেনিং
একটি টেক্সট কর্পাস থেকে ভোকাবুলারি এবং সেগমেন্টেশন নিয়মগুলির স্বয়ংক্রিয় শিক্ষার প্রক্রিয়া, একটি নির্দিষ্ট কাজ বা ডোমেনের জন্য উপস্থাপনা অপ্টিমাইজ করে।
সাবওয়ার্ড রেগুলারাইজেশন
ডেটা অগমেন্টেশন কৌশল যা প্রশিক্ষণের সময় একই টেক্সটের বিভিন্ন সম্ভাব্য বিভাজন প্রয়োগ করে, মডেলের রোবাস্টনেস এবং জেনারালাইজেশন উন্নত করে।
ভোকাবুলারি ট্রাঙ্কেশন
কম্পিউটেশনাল দক্ষতা অপ্টিমাইজ করার জন্য কম ফ্রিকোয়েন্সি টোকেনগুলিকে সাব-ওয়ার্ড বা [UNK] টোকেন দিয়ে প্রতিস্থাপন করে N সবচেয়ে ঘন ঘন টোকেনে ভোকাবুলারি সীমিত করার প্রক্রিয়া।
টোকেনাইজেশন পাইপলাইন
চূড়ান্ত টোকেন উৎপাদনের জন্য নরমালাইজেশন, প্রি-টোকেনাইজেশন, মডেল সেগমেন্টেশন এবং পোস্ট-প্রসেসিং সহ প্রি-প্রসেসিং ধাপগুলির অনুক্রমিক সিরিজ।
টোকেনাইজার কনফিগ
একটি নির্দিষ্ট টোকেনাইজারের আচরণের সঠিক পুনরুৎপাদনের জন্য প্রয়োজনীয় সমস্ত হাইপারপ্যারামিটার এবং মেটাডেটা ধারণকারী JSON কনফিগারেশন ফাইল।
ফাস্ট টোকেনাইজার্স
Rust এবং দক্ষ ডেটা স্ট্রাকচার ব্যবহার করে অপ্টিমাইজড টোকেনাইজার বাস্তবায়ন, যা খাঁটি Python বাস্তবায়নের চেয়ে 10-100x উচ্চতর পারফরম্যান্স প্রদান করে।
টোকেনাইজার ইনফারেন্স
মডেল প্রসেসিংয়ের জন্য প্রস্তুত টোকেন সিকোয়েন্সে কাঁচা টেক্সট রূপান্তর করে নতুন টেক্সচুয়াল ডেটাতে একটি প্রশিক্ষিত টোকেনাইজার প্রয়োগ করার পর্যায়।