QA মাল্টিমোডাল - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

Cross-modalité

Capacité d'un système à comprendre et à relier des informations provenant de différentes modalités, comme le texte et les images, pour enrichir la compréhension contextuelle.

📖

শব্দ

Vision-Language Transformer (VLT)

Architecture Transformer pré-entraînée sur de vastes corpus d'images et de textes appariés, conçue pour des tâches de compréhension et de génération multimodales.

📖

শব্দ

Raisonnement Visuel

Capacité d'un système QA à déduire des informations non explicites en analysant les relations spatiales, les attributs d'objets ou les scènes complexes dans une image.

📖

শব্দ

Grounding Visuel

Action d'ancrer des concepts linguistiques (mots, phrases) à des entités ou des régions spécifiques dans une image ou une vidéo, créant un lien sémantique tangible.

📖

শব্দ

Alignement Modalité-à-Modalité

Processus d'apprentissage qui met en correspondance les segments d'une modalité (ex: une phrase) avec les segments pertinents d'une autre (ex: une zone d'image).

📖

শব্দ

Codebook Vectoriel Quantifié (VQ)

Technique utilisée dans les modèles multimodaux pour discrétiser les représentations continues (ex: d'images) en un ensemble fini de tokens discrets, facilitant leur traitement par des modèles de langage.

📖

শব্দ

Perceptron Multimodal (MLP)

Réseau de neurones, souvent un MLP, qui prend en entrée les caractéristiques fusionnées de plusieurs modalités pour effectuer une tâche de classification ou de régression finale.

📖

শব্দ

Modèle de Fusion à Deux Flux

Architecture où chaque modalité est traitée par un réseau de neurones distinct (un flux) avant que leurs représentations soient combinées pour une prise de décision commune.

📖

শব্দ

মাল্টিমোডাল তথ্য পুনরুদ্ধার

একটি মোডালিটিতে (যেমন: টেক্সট) ক্যোয়ারী থেকে অন্য মোডালিটির (যেমন: ইমেজ) প্রাসঙ্গিক নথিগুলি খুঁজে বের করার কাজ, যা একটি শেয়ার্ড এমবেডিং স্পেসে তাদের সাদৃশ্যের উপর ভিত্তি করে করা হয়।

📖

শব্দ

শর্তাধীন প্রতিক্রিয়া উৎপাদন

একটি প্রক্রিয়া যেখানে একটি ভাষা মডেল একটি টেক্সচুয়াল প্রতিক্রিয়া তৈরি করে যার বিষয়বস্তু একটি নন-টেক্সচুয়াল মোডালিটি (যেমন একটি ইমেজ) থেকে নিষ্কাশিত তথ্য দ্বারা শর্তযুক্ত এবং নির্দেশিত হয়।

📖

শব্দ

ইমেজ টোকেনাইজেশন

একটি ইমেজকে একটি বিচ্ছিন্ন টোকেনের ক্রমে রূপান্তর করার প্রক্রিয়া, প্রায়শই একটি VAE বা VQ-VAE এর মাধ্যমে, যাতে এটি ট্রান্সফরমার-স্টাইল আর্কিটেকচারের সাথে সামঞ্জস্যপূর্ণ হয়।

এআই গ্লসারি

Cross-modalité

Vision-Language Transformer (VLT)

Raisonnement Visuel

Grounding Visuel

Alignement Modalité-à-Modalité

Codebook Vectoriel Quantifié (VQ)

Perceptron Multimodal (MLP)

Modèle de Fusion à Deux Flux

মাল্টিমোডাল তথ্য পুনরুদ্ধার

শর্তাধীন প্রতিক্রিয়া উৎপাদন

ইমেজ টোকেনাইজেশন

কোন ফলাফল পাওয়া যায়নি