টোকেনাইজেশন - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

বাইট পেয়ার এনকোডিং (BPE)

ডেটা কম্প্রেশন অ্যালগরিদম যা টোকেনাইজেশনের জন্য অভিযোজিত, যা সবচেয়ে ঘন ঘন অক্ষর জোড়াগুলিকে পুনরাবৃত্তিমূলকভাবে একত্রিত করে অপ্টিমাইজড সাবওয়ার্ড ভোকাবুলারি তৈরি করে।

📖

শব্দ

ওয়ার্ডপিস

গুগল দ্বারা বিকশিত BPE-এর একটি বৈকল্পিক যা টোকেন একত্রিত করার সময় ভাষার সম্ভাবনা সর্বাধিক করে, বিশেষত BERT এবং এর বৈকল্পিক মডেলগুলিতে ব্যবহৃত হয়।

📖

শব্দ

ইউনিগ্রাম ল্যাঙ্গুয়েজ মডেল

একটি ইউনিগ্রাম ভাষা মডেলের উপর ভিত্তি করে টোকেনাইজেশন পদ্ধতি যা সিকোয়েন্সে টোকেনগুলির পণ্য সম্ভাবনা সর্বাধিক করে সেরা বিভাজন নির্বাচন করে।

📖

শব্দ

সেন্টেন্সপিস

ভাষা-স্বাধীন টোকেনাইজেশন লাইব্রেরি যা টেক্সটকে একটি কাঁচা ইউনিকোড সিকোয়েন্স হিসাবে প্রক্রিয়া করে, প্রতিটি ভাষার জন্য নির্দিষ্ট প্রি-প্রসেসিংয়ের প্রয়োজনীয়তা দূর করে।

📖

শব্দ

ভোকাবুলারি সাইজ

সমালোচনামূলক প্যারামিটার যা একটি মডেলের ভোকাবুলারিতে মোট অনন্য টোকেনের সংখ্যা নির্ধারণ করে, যা সরাসরি মডেলের আকার এবং ভাষাগত বৈচিত্র্য পরিচালনার ক্ষমতাকে প্রভাবিত করে।

📖

শব্দ

বিশেষ টোকেন

সংরক্ষিত টোকেন যেমন [CLS], [SEP], [MASK], [PAD] যা সিকোয়েন্স সীমাবদ্ধ করতে, উপাদান লুকাতে বা ব্যাচগুলিকে অভিন্ন দৈর্ঘ্যে পূরণ করতে ব্যবহৃত হয়।

📖

শব্দ

টোকেনাইজার ট্রেনিং

একটি টেক্সট কর্পাস থেকে ভোকাবুলারি এবং সেগমেন্টেশন নিয়মগুলির স্বয়ংক্রিয় শিক্ষার প্রক্রিয়া, একটি নির্দিষ্ট কাজ বা ডোমেনের জন্য উপস্থাপনা অপ্টিমাইজ করে।

📖

শব্দ

সাবওয়ার্ড রেগুলারাইজেশন

ডেটা অগমেন্টেশন কৌশল যা প্রশিক্ষণের সময় একই টেক্সটের বিভিন্ন সম্ভাব্য বিভাজন প্রয়োগ করে, মডেলের রোবাস্টনেস এবং জেনারালাইজেশন উন্নত করে।

📖

শব্দ

ভোকাবুলারি ট্রাঙ্কেশন

কম্পিউটেশনাল দক্ষতা অপ্টিমাইজ করার জন্য কম ফ্রিকোয়েন্সি টোকেনগুলিকে সাব-ওয়ার্ড বা [UNK] টোকেন দিয়ে প্রতিস্থাপন করে N সবচেয়ে ঘন ঘন টোকেনে ভোকাবুলারি সীমিত করার প্রক্রিয়া।

📖

শব্দ

টোকেনাইজেশন পাইপলাইন

চূড়ান্ত টোকেন উৎপাদনের জন্য নরমালাইজেশন, প্রি-টোকেনাইজেশন, মডেল সেগমেন্টেশন এবং পোস্ট-প্রসেসিং সহ প্রি-প্রসেসিং ধাপগুলির অনুক্রমিক সিরিজ।

📖

শব্দ

টোকেনাইজার কনফিগ

একটি নির্দিষ্ট টোকেনাইজারের আচরণের সঠিক পুনরুৎপাদনের জন্য প্রয়োজনীয় সমস্ত হাইপারপ্যারামিটার এবং মেটাডেটা ধারণকারী JSON কনফিগারেশন ফাইল।

📖

শব্দ

ফাস্ট টোকেনাইজার্স

Rust এবং দক্ষ ডেটা স্ট্রাকচার ব্যবহার করে অপ্টিমাইজড টোকেনাইজার বাস্তবায়ন, যা খাঁটি Python বাস্তবায়নের চেয়ে 10-100x উচ্চতর পারফরম্যান্স প্রদান করে।

📖

শব্দ

টোকেনাইজার ইনফারেন্স

মডেল প্রসেসিংয়ের জন্য প্রস্তুত টোকেন সিকোয়েন্সে কাঁচা টেক্সট রূপান্তর করে নতুন টেক্সচুয়াল ডেটাতে একটি প্রশিক্ষিত টোকেনাইজার প্রয়োগ করার পর্যায়।

এআই গ্লসারি

বাইট পেয়ার এনকোডিং (BPE)

ওয়ার্ডপিস

ইউনিগ্রাম ল্যাঙ্গুয়েজ মডেল

সেন্টেন্সপিস

ভোকাবুলারি সাইজ

বিশেষ টোকেন

টোকেনাইজার ট্রেনিং

সাবওয়ার্ড রেগুলারাইজেশন

ভোকাবুলারি ট্রাঙ্কেশন

টোকেনাইজেশন পাইপলাইন

টোকেনাইজার কনফিগ

ফাস্ট টোকেনাইজার্স

টোকেনাইজার ইনফারেন্স

কোন ফলাফল পাওয়া যায়নি