🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Transformer Multimodal

Architecture de réseau neuronal de type Transformer conçue pour traiter et intégrer simultanément des données issues de plusieurs modalités, telles que le texte, l'image, l'audio ou la vidéo, dans un espace de représentation commun.

📖
个术语

Espace de Représentation Unifié

Espace vectoriel latent unique dans lequel les embeddings de toutes les modalités (texte, image, etc.) sont projetés, permettant des comparaisons sémantiques directes et des opérations de raisonnement multimodal.

📖
个术语

Modèle de Vision-Language (VLM)

Classe spécifique de Transformers multimodaux spécialisés dans la compréhension conjointe du texte et des images, utilisés pour des tâches comme la légende d'image, le VQA ou la recherche d'images par texte.

📖
个术语

ALBEF (Align Before Fuse)

Modèle vision-langage qui utilise un pré-entraînement contrastif pour aligner les représentations texte et image avant de les fusionner via des couches Transformer co-attentionnelles, améliorant la qualité de l'interaction.

📖
个术语

Embedding Modality-Agnostic

Représentation vectorielle apprise par un modèle multimodal qui capture des sémantiques indépendantes de la modalité d'origine, permettant par exemple de retrouver une image à partir d'une requête textuelle.

📖
个术语

Modèle de Fondation Multimodal

Grand modèle pré-entraîné sur des données massives et diversifiées (texte, image, audio, etc.), conçu pour être adapté (fine-tuné) à une très large gamme de tâches en aval avec un minimum d'efforts.

📖
个术语

Unified-IO

Modèle unifié qui traite une vaste gamme de modalités en entrée (texte, images, audio, etc.) et en sortie (génération de texte, dessin, etc.) en utilisant une seule architecture Transformer et un format de séquence unifié.

📖
个术语

Patch Embedding Visuel

Technique popularisée par Vision Transformer (ViT) où une image est découpée en une grille de patches non chevauchants, chacun étant ensuite linéarisé et projeté en un vecteur d'embedding pour être traité comme un token.

📖
个术语

Pré-entraînement Multitâche Multimodal

Stratégie de pré-entraînement où le modèle est optimisé simultanément sur plusieurs objectifs issus de différentes modalités (ex: masquage de langage, prédiction d'image, alignement audio-texte) pour apprendre des représentations robustes.

🔍

未找到结果