এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
টোকেনাইজার
একটি নির্দিষ্ট সরঞ্জাম বা অ্যালগরিদম যা পূর্বনির্ধারিত নিয়ম ও পদ্ধতি অনুযায়ী পাঠ্যকে টোকেনে বিভক্ত করার কাজ করে। আধুনিক টোকেনাইজারগুলোতে ইউনিকোড স্বাভাবিকীকরণ এবং প্রি-টোকেনাইজেশনের মতো প্রাক-প্রক্রিয়াকরণ অন্তর্ভুক্ত থাকে, যা মূল বিভাজনের আগে করা হয়।
অক্ষরভিত্তিক টোকেনাইজেশন
একটি সূক্ষ্ম দানার পদ্ধতি যেখানে প্রতিটি স্বতন্ত্র অক্ষর একটি টোকেন হয়ে যায়, ফলে শব্দভাণ্ডারের বাইরের শব্দের সমস্যা সম্পূর্ণরূপে দূর হয়। যদিও তাত্ত্বিকভাবে কভারেজের জন্য নিখুঁত, এই পদ্ধতি ক্রমের দৈর্ঘ্য উল্লেখযোগ্যভাবে বৃদ্ধি করে এবং গণনাগত দক্ষতা হ্রাস করে।
শব্দভিত্তিক টোকেনাইজেশন
প্রথাগত পদ্ধতি যেখানে প্রতিটি সম্পূর্ণ শব্দ (স্পেস বা বিরামচিহ্ন দ্বারা পৃথকীকৃত) একটি অনন্য টোকেন হয়ে যায়। এই পদ্ধতিটি বিরল শব্দ, বানান ভুল এবং বড় শব্দভাণ্ডারের ক্ষেত্রে গুরুতর সীমাবদ্ধতার সম্মুখীন হয়, যা আধুনিক এলএলএমের জন্য অনুপযুক্ত করে তোলে।
সাবওয়ার্ড টোকেনাইজেশন
একটি মধ্যবর্তী কৌশল যা শব্দগুলোকে অর্থপূর্ণ খণ্ডে বিভক্ত করে, যেমন উপসর্গ, প্রত্যয় বা মূল অংশ, যা সহ-ঘটনার পরিসংখ্যানের উপর ভিত্তি করে। এই পদ্ধতিটি ট্রান্সফরমার মডেলগুলোর জন্য অত্যাধুনিক সমাধান, যা শব্দভাণ্ডারের কভারেজ এবং গণনাগত দক্ষতার মধ্যে ভারসাম্য বজায় রাখে।
টোকেনাইজেশন স্পেস
গাণিতিক মাত্রা যা সম্পূর্ণ শব্দভাণ্ডারের আকার দ্বারা সংজ্ঞায়িত হয়, যেখানে প্রতিটি টোকেন একটি অনন্য সংখ্যাসূচক শনাক্তকরণের সাথে ম্যাপ করা হয়। এই স্পেস গণনাগত জটিলতা নির্ধারণ করে এবং ট্রান্সফরমার আর্কিটেকচারে এম্বেডিং ও অ্যাটেনশন স্তরগুলোর আকারকে সরাসরি প্রভাবিত করে।
প্রসঙ্গভিত্তিক টোকেনাইজেশন
একটি উন্নত কৌশল যেখানে বিভাজনের সিদ্ধান্ত পারিপার্শ্বিক প্রসঙ্গের উপর নির্ভর করে, ফলে একই শব্দ তার ব্যবহারের ভিত্তিতে ভিন্নভাবে টোকেনাইজ করা যায়। এই পদ্ধতি, যা XLNet-এর মতো মডেলে ব্যবহৃত হয়, শব্দার্থিক উপস্থাপনা উন্নত করে কিন্তু গণনাগত জটিলতা উল্লেখযোগ্যভাবে বৃদ্ধি করে।
আউট-অফ-ভোকাবুলারি (OOV)
একটি সমস্যা যা ঘটে যখন পূর্বনির্ধারিত শব্দভাণ্ডারে না থাকা টোকেন ইনফারেন্সের সময় দেখা দেয়, যার জন্য বিশেষ পরিচালনা কৌশল প্রয়োজন। আধুনিক সাবওয়ার্ড টোকেনাইজেশন পদ্ধতি OOV ঘটনার হার উল্লেখযোগ্যভাবে কমিয়ে দেয়, তবে এই ক্ষেত্রগুলোর পরিচালনা মডেলের দৃঢ়তার জন্য অত্যন্ত গুরুত্বপূর্ণ।
গ্রিডি টোকেনাইজেশন
একটি বিভাজন কৌশল যা সর্বদা অবশিষ্ট শব্দের শুরুতে সম্ভাব্য দীর্ঘতম টোকেন নির্বাচন করে। এই পদ্ধতি সহজ ও দ্রুত হলেও কখনও কখনও সামগ্রিকভাবে ক্রম বিবেচনাকারী বৈশ্বিক পদ্ধতির তুলনায় কম অনুকূল ফলাফল দিতে পারে।
সম্ভাব্যতাভিত্তিক টোকেনাইজেশন
একটি পদ্ধতি যা সম্ভাব্যতাভিত্তিক মডেল ব্যবহার করে বিভিন্ন সম্ভাব্য বিভাজন মূল্যায়ন করে এবং প্রশিক্ষণ কর্পাস অনুযায়ী সবচেয়ে সম্ভাবনাময় বিভাজন নির্বাচন করে। নিয়মমাফিক পদ্ধতির বিপরীতে, এটি শর্তাধীন সম্ভাব্যতা থেকে শেখা অনুযায়ী পরিবর্তনশীল টোকেনাইজেশন তৈরি করতে পারে।