AI 词汇表
人工智能完整词典
Multi-Modal Transformer
Architecture Transformer étendue capable de traiter simultanément plusieurs modalités de données (texte, image, audio) en utilisant des mécanismes d'attention croisée pour intégrer l'information inter-modale.
Vision-Language Transformer
Architecture Transformer spécifiquement conçue pour comprendre et générer conjointement du contenu visuel et textuel, utilisant des encodeurs partagés ou séparés pour chaque modalité.
Fusion Mechanism
Stratégie algorithmique permettant de combiner efficacement les représentations de différentes modalités à un ou plusieurs niveaux du réseau, incluant la fusion précoce, tardive ou hiérarchique.
Modality Embedding
Vecteurs d'encodage spécifiques ajoutés aux token embeddings pour indiquer la modalité d'origine (texte, image, audio) permettant au Transformer de distinguer et traiter différemment chaque type de données.
CLIP
Modèle Contrastive Language-Image Pre-training entraîné sur 400 millions de paires image-texte utilisant un objectif contrastif pour apprendre des représentations partagées entre vision et langage.
VLP
Famille de modèles Vision-Language Pre-training utilisant un encodeur Transformer partagé pour les deux modalités avec des tâches pré-entraînement comme le masked modeling et la prédiction image-texte.
Unified Encoder-Decoder
Architecture Transformer où le même encodeur traite toutes les modalités d'entrée, et un décodeur génère la sortie, permettant des tâches comme VQA, captioning et retrieval avec un seul modèle.
Modality Gap
Différence structurelle et sémantique inhérente entre les espaces de représentation de différentes modalités, nécessitant des mécanismes d'alignement spécifiques dans les modèles multi-modaux.
Multi-Modal Fusion
Processus d'intégration de caractéristiques provenant de différentes modalités en une représentation unifiée, exploitant les complémentarités inter-modales pour améliorer les performances sur des tâches complexes.
Cross-Modal Alignment
Objectif d'entraînement visant à aligner sémantiquement les représentations de différentes modalités dans un espace partagé, permettant la correspondance entre concepts visuels et linguistiques.
Perceiver IO
Architecture Transformer générale capable de traiter n'importe quelle combinaison de modalités en utilisant un réseau d'attention croisée entre les données d'entrée et un ensemble de latents appris.
Flamingo Model
Modèle vision-langage de 80 milliards de paramètres utilisant des adapters pré-entraînés et un attentional gating pour combiner efficacement Vision Transformers et modèles de langage sans ré-entraînement complet.
BLIP
Framework Bootstrapping Language-Image Pre-training générant des pseudo-captions pour filtrer le bruit et améliorer la qualité des données, utilisant un encodeur multimodal et un décodeur image-texte.
CoCa
Modèle Contrastive Captioners combinant un objectif contrastif pour l'apprentissage de représentations et un objectif génératif pour le captioning dans une seule architecture Transformer unifiée.
BEiT-3
Modèle Bidirectional Encoder representation from Image Transformer v3 utilisant un multiway Transformer avec des embeddings modality-specific pour traiter image, texte et image-texte de manière unifiée.
LayoutLM
Famille de modèles pré-entraînés sur des documents combinant la disposition spatiale 2D, le texte et les informations visuelles pour la compréhension de documents structurés comme les formulaires et factures.
UniPerceiver
Framework universel de perception traitant diverses tâches multi-modales comme un problème de génération de tokens unifié, utilisant un seul modèle Transformer pour classification, détection et génération.
GIT
Modèle Generative Image-to-text Transformer traitant les images comme une langue étrangère et utilisant une simple architecture encoder-decoder pour la description d'images et le VQA avec des performances state-of-the-art.