এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
টোকেনাইজেশন সাবওয়ার্ড
টেক্সটকে শব্দের চেয়ে ছোট কিন্তু অক্ষরের চেয়ে বড় ভাষাগত এককে বিভক্ত করার কৌশল, যা ট্রান্সফরমার মডেলগুলিতে শব্দভাণ্ডার এবং বিরল শব্দগুলি কার্যকরভাবে পরিচালনা করতে সক্ষম করে।
অজানা টোকেন (UNK)
বিশেষ টোকেন যা টোকেনাইজারের শব্দভাণ্ডারে অনুপস্থিত শব্দ বা সাবওয়ার্ডগুলিকে উপস্থাপন করতে ব্যবহৃত হয়, ইনফারেন্সের সময় মডেলকে আউট-অফ-ভোকাবুলার ইনপুট পরিচালনা করতে সক্ষম করে।
রূপতাত্ত্বিক বিশ্লেষণ
শব্দগুলিতে মর্ফিম এবং ব্যাকরণগত কাঠামো সনাক্ত করার প্রক্রিয়া, যা সাবওয়ার্ড টোকেনাইজার দ্বারা অপ্টিমাইজ করা হয় যা ভাষাগুলির রূপতাত্ত্বিক নিয়মিততা স্বাভাবিকভাবে ক্যাপচার করে।
অক্ষর-স্তরের টোকেনাইজেশন
বিভাজনের পদ্ধতি যা প্রতিটি পৃথক অক্ষরকে টোকেন হিসেবে বিবেচনা করে, শব্দভাণ্ডারের সমস্যা দূর করে কিন্তু গণনাগত দক্ষতার ক্ষতিতে ক্রমগুলির দৈর্ঘ্য বাড়ায়।
শব্দ-স্তরের টোকেনাইজেশন
সম্পূর্ণ শব্দগুলিকে টোকেন ইউনিট হিসেবে ব্যবহার করে ঐতিহ্যগত পদ্ধতি, যা শব্দভাণ্ডারের বিস্ফোরণ এবং আউট-অফ-ভোকাবুলার শব্দ ও রূপতাত্ত্বিক বৈচিত্র্য পরিচালনা করতে অক্ষমতার দ্বারা সীমাবদ্ধ।
BPE ড্রপআউটস
প্রশিক্ষণের সময় কিছু মার্জ উপেক্ষা করে BPE টোকেনাইজেশন প্রক্রিয়ায় এলোমেলোতা প্রবর্তনের নিয়মিতকরণ কৌশল, যা মডেলের রোবাস্টনেস এবং সাধারণীকরণ উন্নত করে।
বিশেষ টোকেন (CLS, SEP, PAD, MASK)
BERT-এ নির্দিষ্ট ফাংশন সহ সংরক্ষিত টোকেন: শ্রেণীবিভাগের জন্য CLS, বিভাজনের জন্য SEP, সারিবদ্ধকরণের জন্য PAD এবং প্রি-ট্রেনিংয়ের সময় মাস্কিংয়ের জন্য MASK।
টোকেন আইডি ম্যাপিং
শব্দভাণ্ডারের প্রতিটি টোকেন এবং একটি অনন্য সংখ্যাসূচক আইডেন্টিফায়ারের মধ্যে দ্বিমুখী চিঠিপত্র, যা স্নায়ু মডেলগুলিতে পাঠ্য এবং সংখ্যাসূচক উপস্থাপনার মধ্যে দক্ষ রূপান্তর সম্ভব করে।
টোকেন কম্প্রেশন
সাবওয়ার্ড টোকেনাইজেশনের মূল উদ্দেশ্য হল গণনাগত কর্মক্ষমতা সর্বোত্তম রাখার জন্য যুক্তিসঙ্গত আকারের শব্দভাণ্ডার বজায় রাখার পাশাপাশি প্রতি শব্দে গড় টোকেন সংখ্যা হ্রাস করা।
টোকেন ফ্রিকোয়েন্সি থ্রেশহোল্ড
একটি প্যারামিটার যা সংজ্ঞায়িত করে যে একটি টোকেনকে শব্দভাণ্ডারে অন্তর্ভুক্ত হতে হলে সর্বনিম্ন কত ফ্রিকোয়েন্সি অর্জন করতে হবে, সাবওয়ার্ড টোকেনাইজেশনে কভারেজ এবং শব্দভাণ্ডারের আকারের মধ্যে ভারসাম্য বজায় রাখার জন্য অত্যন্ত গুরুত্বপূর্ণ।
সাবওয়ার্ড সেগমেন্টেশন অ্যালগরিদম
নিয়ম এবং হিউরিস্টিকসের একটি সেট যা নির্ধারণ করে কিভাবে অজানা শব্দগুলিকে শব্দভাণ্ডারের বিদ্যমান সাবওয়ার্ডে বিভক্ত করা হবে, সম্ভাব্যতা সর্বাধিককরণ এবং সেগমেন্ট হ্রাস করার নীতির উপর ভিত্তি করে।
শব্দভাণ্ডার কভারেজ
একটি মেট্রিক যা মূল পাঠ্যের সেই অনুপাত মূল্যায়ন করে যা UNK টোকেন ছাড়াই উপস্থাপন করা যেতে পারে, আধুনিক মূল পাঠ্যে সাধারণত ৯৯.৯% এর বেশি কভারেজ অর্জনের জন্য সাবওয়ার্ড অ্যালগরিদম দ্বারা অপ্টিমাইজ করা হয়।