Transformers Multimodaux - Bảng thuật ngữ Trí tuệ nhân tạo

📖

thuật ngữ

Transformer Multimodal

Architecture de réseau neuronal de type Transformer conçue pour traiter et intégrer simultanément des données issues de plusieurs modalités, telles que le texte, l'image, l'audio ou la vidéo, dans un espace de représentation commun.

📖

thuật ngữ

Espace de Représentation Unifié

Espace vectoriel latent unique dans lequel les embeddings de toutes les modalités (texte, image, etc.) sont projetés, permettant des comparaisons sémantiques directes et des opérations de raisonnement multimodal.

📖

thuật ngữ

Modèle de Vision-Language (VLM)

Classe spécifique de Transformers multimodaux spécialisés dans la compréhension conjointe du texte et des images, utilisés pour des tâches comme la légende d'image, le VQA ou la recherche d'images par texte.

📖

thuật ngữ

ALBEF (Align Before Fuse)

Modèle vision-langage qui utilise un pré-entraînement contrastif pour aligner les représentations texte et image avant de les fusionner via des couches Transformer co-attentionnelles, améliorant la qualité de l'interaction.

📖

thuật ngữ

Embedding Modality-Agnostic

Représentation vectorielle apprise par un modèle multimodal qui capture des sémantiques indépendantes de la modalité d'origine, permettant par exemple de retrouver une image à partir d'une requête textuelle.

📖

thuật ngữ

Modèle de Fondation Multimodal

Grand modèle pré-entraîné sur des données massives et diversifiées (texte, image, audio, etc.), conçu pour être adapté (fine-tuné) à une très large gamme de tâches en aval avec un minimum d'efforts.

📖

thuật ngữ

Unified-IO

Modèle unifié qui traite une vaste gamme de modalités en entrée (texte, images, audio, etc.) et en sortie (génération de texte, dessin, etc.) en utilisant une seule architecture Transformer et un format de séquence unifié.

📖

thuật ngữ

Patch Embedding Visuel

Technique popularisée par Vision Transformer (ViT) où une image est découpée en une grille de patches non chevauchants, chacun étant ensuite linéarisé et projeté en un vecteur d'embedding pour être traité comme un token.

📖

thuật ngữ

Pré-entraînement Multitâche Multimodal

Stratégie de pré-entraînement où le modèle est optimisé simultanément sur plusieurs objectifs issus de différentes modalités (ex: masquage de langage, prédiction d'image, alignement audio-texte) pour apprendre des représentations robustes.

Thuật ngữ AI

Transformer Multimodal

Espace de Représentation Unifié

Modèle de Vision-Language (VLM)

ALBEF (Align Before Fuse)

Embedding Modality-Agnostic

Modèle de Fondation Multimodal

Unified-IO

Patch Embedding Visuel

Pré-entraînement Multitâche Multimodal

Không tìm thấy kết quả