محولات متعددة الوسائط - مسرد الذكاء الاصطناعي

📖

المصطلحات

Transformer Multimodal

Architecture de réseau neuronal de type Transformer conçue pour traiter et intégrer simultanément des données issues de plusieurs modalités, telles que le texte, l'image, l'audio ou la vidéo, dans un espace de représentation commun.

📖

المصطلحات

Espace de Représentation Unifié

Espace vectoriel latent unique dans lequel les embeddings de toutes les modalités (texte, image, etc.) sont projetés, permettant des comparaisons sémantiques directes et des opérations de raisonnement multimodal.

📖

المصطلحات

Modèle de Vision-Language (VLM)

Classe spécifique de Transformers multimodaux spécialisés dans la compréhension conjointe du texte et des images, utilisés pour des tâches comme la légende d'image, le VQA ou la recherche d'images par texte.

📖

المصطلحات

ALBEF (Align Before Fuse)

Modèle vision-langage qui utilise un pré-entraînement contrastif pour aligner les représentations texte et image avant de les fusionner via des couches Transformer co-attentionnelles, améliorant la qualité de l'interaction.

📖

المصطلحات

Embedding Modality-Agnostic

Représentation vectorielle apprise par un modèle multimodal qui capture des sémantiques indépendantes de la modalité d'origine, permettant par exemple de retrouver une image à partir d'une requête textuelle.

📖

المصطلحات

Modèle de Fondation Multimodal

Grand modèle pré-entraîné sur des données massives et diversifiées (texte, image, audio, etc.), conçu pour être adapté (fine-tuné) à une très large gamme de tâches en aval avec un minimum d'efforts.

📖

المصطلحات

Unified-IO

Modèle unifié qui traite une vaste gamme de modalités en entrée (texte, images, audio, etc.) et en sortie (génération de texte, dessin, etc.) en utilisant une seule architecture Transformer et un format de séquence unifié.

📖

المصطلحات

Patch Embedding Visuel

Technique popularisée par Vision Transformer (ViT) où une image est découpée en une grille de patches non chevauchants, chacun étant ensuite linéarisé et projeté en un vecteur d'embedding pour être traité comme un token.

📖

المصطلحات

التدريب المسبق متعدد المهام ومتعدد الوسائط

استراتيجية تدريب مسبق يتم فيها تحسين النموذج في وقت واحد على أهداف متعددة من وسائط مختلفة (مثل: حجب اللغة، تنبؤ الصور، محاذاة الصوت مع النص) لتعلم تمثيلات قوية.

قاموس الذكاء الاصطناعي

Transformer Multimodal

Espace de Représentation Unifié

Modèle de Vision-Language (VLM)

ALBEF (Align Before Fuse)

Embedding Modality-Agnostic

Modèle de Fondation Multimodal

Unified-IO

Patch Embedding Visuel

التدريب المسبق متعدد المهام ومتعدد الوسائط

لم يتم العثور على نتائج