এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Transfert de Langue Croisé (Cross-Lingual Transfer)
Capacité d'un modèle NER entraîné sur une langue source à appliquer ses connaissances pour reconnaître des entités dans une langue cible, sans nécessiter de données annotées pour cette dernière.
Modèle Multilingue Unifié
Architecture de NER où un seul modèle est entraîné simultanément sur des données de plusieurs langues, partageant des représentations vectorielles pour capturer des patterns universels de reconnaissance d'entités.
Alignement d'Espaces Vectoriels
Technique visant à projeter les espaces sémantiques de différentes langues dans un espace vectoriel commun, permettant ainsi à un modèle de traiter et de comparer des mots ou entités issus de langues distinctes.
Fine-Tuning Multilingue
Processus d'adaptation d'un modèle de langage pré-entraîné sur de vastes corpus multilingues, en le spécialisant pour la tâche de NER à l'aide d'un jeu de données annoté dans plusieurs langues.
Code-Switching NER
Défi de la NER multilingue consistant à reconnaître des entités au sein d'un texte où les locuteurs alternent entre plusieurs langues, souvent au sein d'une même phrase.
Entités Translingues
Entités nommées qui conservent une forme ou une référence identique à travers plusieurs langues, comme les noms de marques (Google), d'organisations (ONU) ou de personnes (Barack Obama).
Adaptation de Domaine Multilingue
Technique pour ajuster un modèle NER multilingue à un domaine spécifique (médical, juridique) en utilisant des données non annotées ou faiblement annotées dans plusieurs langues.
Embeddings de Caractères Multilingues
Représentations vectorielles au niveau des caractères, partagées entre les langues, qui permettent au modèle de capturer des morphologies similaires (ex: racines latines) et de généraliser à de nouveaux mots.
প্রক্ষেপিত টীকাকরণ (Projected Annotation)
একটি টীকাযুক্ত উৎস ভাষা থেকে সত্তার লেবেলগুলিকে প্রক্ষেপণ করতে স্বয়ংক্রিয় অনুবাদ ব্যবস্থা ব্যবহার করে লক্ষ্য ভাষায় NER প্রশিক্ষণ তথ্য তৈরি করার পদ্ধতি।
স্বল্প-সম্পদ মডেল (Low-Resource NER)
এক বা একাধিক লক্ষ্য ভাষায় অত্যন্ত সীমিত পরিমাণে টীকাযুক্ত তথ্য নিয়ে কাজ করার জন্য নকশাকৃত NER ব্যবস্থা, প্রায়শই উচ্চ-সম্পদ ভাষা থেকে জ্ঞান স্থানান্তরের মাধ্যমে।
বহুভাষিক সত্তা স্বাভাবিকীকরণ
একই সত্তার বিভিন্ন ভাষাগত বা বানানগত প্রকরণকে ('New York', 'Nueva York', 'New York City') একটি অনন্য ক্যানোনিকাল শনাক্তকারীর অধীনে একত্রিত করার কাজ।
বহুভাষিক মূল্যায়ন
বিভিন্ন ভাষার একটি সেটে একটি NER ব্যবস্থার কর্মক্ষমতা পরিমাপের প্রক্রিয়া, প্রায়শই ভাষাভিত্তিক এবং সামগ্রিকভাবে গণনা করা মানক মেট্রিক্স (সঠিকতা, স্মরণ, F1-স্কোর) ব্যবহার করে।
বৃহৎ-স্কেল বহুভাষিক ভাষা মডেল (mLLM)
mBERT বা XLM-R-এর মতো ফাউন্ডেশন মডেল, শত শত ভাষায় প্রাক-প্রশিক্ষিত, যা সূক্ষ্ম-টিউনিংয়ের মাধ্যমে কার্যকর বহুভাষিক NER ব্যবস্থা গঠনের ভিত্তি হিসেবে কাজ করে।
NER-এর জন্য ভাষা শনাক্তকরণ
বহুভাষিক NER পাইপলাইনে একটি গুরুত্বপূর্ণ প্রাথমিক ধাপ যা উপযুক্ত সত্তা শনাক্তকরণ মডেল সক্রিয় করার জন্য ইনপুট পাঠ্যের ভাষা চিহ্নিত করে।
লিপি-স্বাধীন NER (Script-Independent NER)
লেখার পদ্ধতি (ল্যাটিন বর্ণমালা, সিরিলিক, আরবি ইত্যাদি) নির্বিশেষে সত্তা শনাক্ত করার জন্য একটি NER মডেলের ক্ষমতা, ভাষার বিমূর্ত উপস্থাপনার উপর নির্ভর করে।
NER-এর জন্য বিপরীত-অনুবাদ (Back-Translation for NER)
তথ্য সম্প্রসারণের একটি কৌশল যেখানে একটি উৎস ভাষায় টীকাযুক্ত পাঠ্য একটি লক্ষ্য ভাষায় অনুবাদ করা হয়, তারপর আবার উৎস ভাষায় ফিরিয়ে আনা হয়, যাতে শক্তিশালী নতুন প্রশিক্ষণ উদাহরণ তৈরি হয়।