এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Cross-modalité
Capacité d'un système à comprendre et à relier des informations provenant de différentes modalités, comme le texte et les images, pour enrichir la compréhension contextuelle.
Vision-Language Transformer (VLT)
Architecture Transformer pré-entraînée sur de vastes corpus d'images et de textes appariés, conçue pour des tâches de compréhension et de génération multimodales.
Raisonnement Visuel
Capacité d'un système QA à déduire des informations non explicites en analysant les relations spatiales, les attributs d'objets ou les scènes complexes dans une image.
Grounding Visuel
Action d'ancrer des concepts linguistiques (mots, phrases) à des entités ou des régions spécifiques dans une image ou une vidéo, créant un lien sémantique tangible.
Alignement Modalité-à-Modalité
Processus d'apprentissage qui met en correspondance les segments d'une modalité (ex: une phrase) avec les segments pertinents d'une autre (ex: une zone d'image).
Codebook Vectoriel Quantifié (VQ)
Technique utilisée dans les modèles multimodaux pour discrétiser les représentations continues (ex: d'images) en un ensemble fini de tokens discrets, facilitant leur traitement par des modèles de langage.
Perceptron Multimodal (MLP)
Réseau de neurones, souvent un MLP, qui prend en entrée les caractéristiques fusionnées de plusieurs modalités pour effectuer une tâche de classification ou de régression finale.
Modèle de Fusion à Deux Flux
Architecture où chaque modalité est traitée par un réseau de neurones distinct (un flux) avant que leurs représentations soient combinées pour une prise de décision commune.
মাল্টিমোডাল তথ্য পুনরুদ্ধার
একটি মোডালিটিতে (যেমন: টেক্সট) ক্যোয়ারী থেকে অন্য মোডালিটির (যেমন: ইমেজ) প্রাসঙ্গিক নথিগুলি খুঁজে বের করার কাজ, যা একটি শেয়ার্ড এমবেডিং স্পেসে তাদের সাদৃশ্যের উপর ভিত্তি করে করা হয়।
শর্তাধীন প্রতিক্রিয়া উৎপাদন
একটি প্রক্রিয়া যেখানে একটি ভাষা মডেল একটি টেক্সচুয়াল প্রতিক্রিয়া তৈরি করে যার বিষয়বস্তু একটি নন-টেক্সচুয়াল মোডালিটি (যেমন একটি ইমেজ) থেকে নিষ্কাশিত তথ্য দ্বারা শর্তযুক্ত এবং নির্দেশিত হয়।
ইমেজ টোকেনাইজেশন
একটি ইমেজকে একটি বিচ্ছিন্ন টোকেনের ক্রমে রূপান্তর করার প্রক্রিয়া, প্রায়শই একটি VAE বা VQ-VAE এর মাধ্যমে, যাতে এটি ট্রান্সফরমার-স্টাইল আর্কিটেকচারের সাথে সামঞ্জস্যপূর্ণ হয়।