Multi-Modal Transformers

📖

術語

Multi-Modal Transformer

Architecture Transformer étendue capable de traiter simultanément plusieurs modalités de données (texte, image, audio) en utilisant des mécanismes d'attention croisée pour intégrer l'information inter-modale.

📖

術語

Vision-Language Transformer

Architecture Transformer spécifiquement conçue pour comprendre et générer conjointement du contenu visuel et textuel, utilisant des encodeurs partagés ou séparés pour chaque modalité.

📖

術語

Fusion Mechanism

Stratégie algorithmique permettant de combiner efficacement les représentations de différentes modalités à un ou plusieurs niveaux du réseau, incluant la fusion précoce, tardive ou hiérarchique.

📖

術語

Modality Embedding

Vecteurs d'encodage spécifiques ajoutés aux token embeddings pour indiquer la modalité d'origine (texte, image, audio) permettant au Transformer de distinguer et traiter différemment chaque type de données.

📖

術語

CLIP

Modèle Contrastive Language-Image Pre-training entraîné sur 400 millions de paires image-texte utilisant un objectif contrastif pour apprendre des représentations partagées entre vision et langage.

📖

術語

VLP

Famille de modèles Vision-Language Pre-training utilisant un encodeur Transformer partagé pour les deux modalités avec des tâches pré-entraînement comme le masked modeling et la prédiction image-texte.

📖

術語

Unified Encoder-Decoder

Architecture Transformer où le même encodeur traite toutes les modalités d'entrée, et un décodeur génère la sortie, permettant des tâches comme VQA, captioning et retrieval avec un seul modèle.

📖

術語

Modality Gap

Différence structurelle et sémantique inhérente entre les espaces de représentation de différentes modalités, nécessitant des mécanismes d'alignement spécifiques dans les modèles multi-modaux.

📖

術語

Multi-Modal Fusion

Processus d'intégration de caractéristiques provenant de différentes modalités en une représentation unifiée, exploitant les complémentarités inter-modales pour améliorer les performances sur des tâches complexes.

📖

術語

Cross-Modal Alignment

Objectif d'entraînement visant à aligner sémantiquement les représentations de différentes modalités dans un espace partagé, permettant la correspondance entre concepts visuels et linguistiques.

📖

術語

Perceiver IO

Architecture Transformer générale capable de traiter n'importe quelle combinaison de modalités en utilisant un réseau d'attention croisée entre les données d'entrée et un ensemble de latents appris.

📖

術語

Flamingo Model

Modèle vision-langage de 80 milliards de paramètres utilisant des adapters pré-entraînés et un attentional gating pour combiner efficacement Vision Transformers et modèles de langage sans ré-entraînement complet.

📖

術語

BLIP

Framework Bootstrapping Language-Image Pre-training générant des pseudo-captions pour filtrer le bruit et améliorer la qualité des données, utilisant un encodeur multimodal et un décodeur image-texte.

📖

術語

CoCa

Modèle Contrastive Captioners combinant un objectif contrastif pour l'apprentissage de représentations et un objectif génératif pour le captioning dans une seule architecture Transformer unifiée.

📖

術語

BEiT-3

Modèle Bidirectional Encoder representation from Image Transformer v3 utilisant un multiway Transformer avec des embeddings modality-specific pour traiter image, texte et image-texte de manière unifiée.

📖

術語

LayoutLM

Famille de modèles pré-entraînés sur des documents combinant la disposition spatiale 2D, le texte et les informations visuelles pour la compréhension de documents structurés comme les formulaires et factures.

📖

術語

UniPerceiver

Framework universel de perception traitant diverses tâches multi-modales comme un problème de génération de tokens unifié, utilisant un seul modèle Transformer pour classification, détection et génération.

📖

術語

GIT

Modèle Generative Image-to-text Transformer traitant les images comme une langue étrangère et utilisant une simple architecture encoder-decoder pour la description d'images et le VQA avec des performances state-of-the-art.

AI 詞彙表