🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Transformer Multimodal

Architecture de réseau neuronal de type Transformer conçue pour traiter et intégrer simultanément des données issues de plusieurs modalités, telles que le texte, l'image, l'audio ou la vidéo, dans un espace de représentation commun.

📖
thuật ngữ

Espace de Représentation Unifié

Espace vectoriel latent unique dans lequel les embeddings de toutes les modalités (texte, image, etc.) sont projetés, permettant des comparaisons sémantiques directes et des opérations de raisonnement multimodal.

📖
thuật ngữ

Modèle de Vision-Language (VLM)

Classe spécifique de Transformers multimodaux spécialisés dans la compréhension conjointe du texte et des images, utilisés pour des tâches comme la légende d'image, le VQA ou la recherche d'images par texte.

📖
thuật ngữ

ALBEF (Align Before Fuse)

Modèle vision-langage qui utilise un pré-entraînement contrastif pour aligner les représentations texte et image avant de les fusionner via des couches Transformer co-attentionnelles, améliorant la qualité de l'interaction.

📖
thuật ngữ

Embedding Modality-Agnostic

Représentation vectorielle apprise par un modèle multimodal qui capture des sémantiques indépendantes de la modalité d'origine, permettant par exemple de retrouver une image à partir d'une requête textuelle.

📖
thuật ngữ

Modèle de Fondation Multimodal

Grand modèle pré-entraîné sur des données massives et diversifiées (texte, image, audio, etc.), conçu pour être adapté (fine-tuné) à une très large gamme de tâches en aval avec un minimum d'efforts.

📖
thuật ngữ

Unified-IO

Modèle unifié qui traite une vaste gamme de modalités en entrée (texte, images, audio, etc.) et en sortie (génération de texte, dessin, etc.) en utilisant une seule architecture Transformer et un format de séquence unifié.

📖
thuật ngữ

Patch Embedding Visuel

Technique popularisée par Vision Transformer (ViT) où une image est découpée en une grille de patches non chevauchants, chacun étant ensuite linéarisé et projeté en un vecteur d'embedding pour être traité comme un token.

📖
thuật ngữ

Pré-entraînement Multitâche Multimodal

Stratégie de pré-entraînement où le modèle est optimisé simultanément sur plusieurs objectifs issus de différentes modalités (ex: masquage de langage, prédiction d'image, alignement audio-texte) pour apprendre des représentations robustes.

🔍

Không tìm thấy kết quả