QA Multimodal - Glossaire IA

📖

termes

Cross-modalité

Capacité d'un système à comprendre et à relier des informations provenant de différentes modalités, comme le texte et les images, pour enrichir la compréhension contextuelle.

📖

termes

Vision-Language Transformer (VLT)

Architecture Transformer pré-entraînée sur de vastes corpus d'images et de textes appariés, conçue pour des tâches de compréhension et de génération multimodales.

📖

termes

Raisonnement Visuel

Capacité d'un système QA à déduire des informations non explicites en analysant les relations spatiales, les attributs d'objets ou les scènes complexes dans une image.

📖

termes

Grounding Visuel

Action d'ancrer des concepts linguistiques (mots, phrases) à des entités ou des régions spécifiques dans une image ou une vidéo, créant un lien sémantique tangible.

📖

termes

Alignement Modalité-à-Modalité

Processus d'apprentissage qui met en correspondance les segments d'une modalité (ex: une phrase) avec les segments pertinents d'une autre (ex: une zone d'image).

📖

termes

Codebook Vectoriel Quantifié (VQ)

Technique utilisée dans les modèles multimodaux pour discrétiser les représentations continues (ex: d'images) en un ensemble fini de tokens discrets, facilitant leur traitement par des modèles de langage.

📖

termes

Perceptron Multimodal (MLP)

Réseau de neurones, souvent un MLP, qui prend en entrée les caractéristiques fusionnées de plusieurs modalités pour effectuer une tâche de classification ou de régression finale.

📖

termes

Modèle de Fusion à Deux Flux

Architecture où chaque modalité est traitée par un réseau de neurones distinct (un flux) avant que leurs représentations soient combinées pour une prise de décision commune.

📖

termes

Récupération d'Information Multimodal

Tâche consistant à retrouver des documents (ex: images) pertinents à partir d'une requête dans une autre modalité (ex: texte), en se basant sur leur similarité dans un espace d'embedding partagé.

📖

termes

Génération de Réponse Conditionnelle

Processus où un modèle de langue génère une réponse textuelle dont le contenu est conditionné et guidé par les informations extraites d'une modalité non textuelle comme une image.

📖

termes

Tokenisation d'Image

Processus de conversion d'une image en une séquence de tokens discrets, souvent via un VAE ou un VQ-VAE, pour la rendre compatible avec les architectures de type Transformer.

Glossaire IA

Cross-modalité

Vision-Language Transformer (VLT)

Raisonnement Visuel

Grounding Visuel

Alignement Modalité-à-Modalité

Codebook Vectoriel Quantifié (VQ)

Perceptron Multimodal (MLP)

Modèle de Fusion à Deux Flux

Récupération d'Information Multimodal

Génération de Réponse Conditionnelle

Tokenisation d'Image

Aucun résultat trouvé