টোকেনাইজেশন - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

টোকেনাইজার

একটি নির্দিষ্ট সরঞ্জাম বা অ্যালগরিদম যা পূর্বনির্ধারিত নিয়ম ও পদ্ধতি অনুযায়ী পাঠ্যকে টোকেনে বিভক্ত করার কাজ করে। আধুনিক টোকেনাইজারগুলোতে ইউনিকোড স্বাভাবিকীকরণ এবং প্রি-টোকেনাইজেশনের মতো প্রাক-প্রক্রিয়াকরণ অন্তর্ভুক্ত থাকে, যা মূল বিভাজনের আগে করা হয়।

📖

শব্দ

অক্ষরভিত্তিক টোকেনাইজেশন

একটি সূক্ষ্ম দানার পদ্ধতি যেখানে প্রতিটি স্বতন্ত্র অক্ষর একটি টোকেন হয়ে যায়, ফলে শব্দভাণ্ডারের বাইরের শব্দের সমস্যা সম্পূর্ণরূপে দূর হয়। যদিও তাত্ত্বিকভাবে কভারেজের জন্য নিখুঁত, এই পদ্ধতি ক্রমের দৈর্ঘ্য উল্লেখযোগ্যভাবে বৃদ্ধি করে এবং গণনাগত দক্ষতা হ্রাস করে।

📖

শব্দ

শব্দভিত্তিক টোকেনাইজেশন

প্রথাগত পদ্ধতি যেখানে প্রতিটি সম্পূর্ণ শব্দ (স্পেস বা বিরামচিহ্ন দ্বারা পৃথকীকৃত) একটি অনন্য টোকেন হয়ে যায়। এই পদ্ধতিটি বিরল শব্দ, বানান ভুল এবং বড় শব্দভাণ্ডারের ক্ষেত্রে গুরুতর সীমাবদ্ধতার সম্মুখীন হয়, যা আধুনিক এলএলএমের জন্য অনুপযুক্ত করে তোলে।

📖

শব্দ

সাবওয়ার্ড টোকেনাইজেশন

একটি মধ্যবর্তী কৌশল যা শব্দগুলোকে অর্থপূর্ণ খণ্ডে বিভক্ত করে, যেমন উপসর্গ, প্রত্যয় বা মূল অংশ, যা সহ-ঘটনার পরিসংখ্যানের উপর ভিত্তি করে। এই পদ্ধতিটি ট্রান্সফরমার মডেলগুলোর জন্য অত্যাধুনিক সমাধান, যা শব্দভাণ্ডারের কভারেজ এবং গণনাগত দক্ষতার মধ্যে ভারসাম্য বজায় রাখে।

📖

শব্দ

টোকেনাইজেশন স্পেস

গাণিতিক মাত্রা যা সম্পূর্ণ শব্দভাণ্ডারের আকার দ্বারা সংজ্ঞায়িত হয়, যেখানে প্রতিটি টোকেন একটি অনন্য সংখ্যাসূচক শনাক্তকরণের সাথে ম্যাপ করা হয়। এই স্পেস গণনাগত জটিলতা নির্ধারণ করে এবং ট্রান্সফরমার আর্কিটেকচারে এম্বেডিং ও অ্যাটেনশন স্তরগুলোর আকারকে সরাসরি প্রভাবিত করে।

📖

শব্দ

প্রসঙ্গভিত্তিক টোকেনাইজেশন

একটি উন্নত কৌশল যেখানে বিভাজনের সিদ্ধান্ত পারিপার্শ্বিক প্রসঙ্গের উপর নির্ভর করে, ফলে একই শব্দ তার ব্যবহারের ভিত্তিতে ভিন্নভাবে টোকেনাইজ করা যায়। এই পদ্ধতি, যা XLNet-এর মতো মডেলে ব্যবহৃত হয়, শব্দার্থিক উপস্থাপনা উন্নত করে কিন্তু গণনাগত জটিলতা উল্লেখযোগ্যভাবে বৃদ্ধি করে।

📖

শব্দ

আউট-অফ-ভোকাবুলারি (OOV)

একটি সমস্যা যা ঘটে যখন পূর্বনির্ধারিত শব্দভাণ্ডারে না থাকা টোকেন ইনফারেন্সের সময় দেখা দেয়, যার জন্য বিশেষ পরিচালনা কৌশল প্রয়োজন। আধুনিক সাবওয়ার্ড টোকেনাইজেশন পদ্ধতি OOV ঘটনার হার উল্লেখযোগ্যভাবে কমিয়ে দেয়, তবে এই ক্ষেত্রগুলোর পরিচালনা মডেলের দৃঢ়তার জন্য অত্যন্ত গুরুত্বপূর্ণ।

📖

শব্দ

গ্রিডি টোকেনাইজেশন

একটি বিভাজন কৌশল যা সর্বদা অবশিষ্ট শব্দের শুরুতে সম্ভাব্য দীর্ঘতম টোকেন নির্বাচন করে। এই পদ্ধতি সহজ ও দ্রুত হলেও কখনও কখনও সামগ্রিকভাবে ক্রম বিবেচনাকারী বৈশ্বিক পদ্ধতির তুলনায় কম অনুকূল ফলাফল দিতে পারে।

📖

শব্দ

সম্ভাব্যতাভিত্তিক টোকেনাইজেশন

একটি পদ্ধতি যা সম্ভাব্যতাভিত্তিক মডেল ব্যবহার করে বিভিন্ন সম্ভাব্য বিভাজন মূল্যায়ন করে এবং প্রশিক্ষণ কর্পাস অনুযায়ী সবচেয়ে সম্ভাবনাময় বিভাজন নির্বাচন করে। নিয়মমাফিক পদ্ধতির বিপরীতে, এটি শর্তাধীন সম্ভাব্যতা থেকে শেখা অনুযায়ী পরিবর্তনশীল টোকেনাইজেশন তৈরি করতে পারে।

এআই গ্লসারি

টোকেনাইজার

অক্ষরভিত্তিক টোকেনাইজেশন

শব্দভিত্তিক টোকেনাইজেশন

সাবওয়ার্ড টোকেনাইজেশন

টোকেনাইজেশন স্পেস

প্রসঙ্গভিত্তিক টোকেনাইজেশন

আউট-অফ-ভোকাবুলারি (OOV)

গ্রিডি টোকেনাইজেশন

সম্ভাব্যতাভিত্তিক টোকেনাইজেশন

কোন ফলাফল পাওয়া যায়নি