🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

Transformer Multimodal

Architecture de réseau neuronal de type Transformer conçue pour traiter et intégrer simultanément des données issues de plusieurs modalités, telles que le texte, l'image, l'audio ou la vidéo, dans un espace de représentation commun.

📖
المصطلحات

Espace de Représentation Unifié

Espace vectoriel latent unique dans lequel les embeddings de toutes les modalités (texte, image, etc.) sont projetés, permettant des comparaisons sémantiques directes et des opérations de raisonnement multimodal.

📖
المصطلحات

Modèle de Vision-Language (VLM)

Classe spécifique de Transformers multimodaux spécialisés dans la compréhension conjointe du texte et des images, utilisés pour des tâches comme la légende d'image, le VQA ou la recherche d'images par texte.

📖
المصطلحات

ALBEF (Align Before Fuse)

Modèle vision-langage qui utilise un pré-entraînement contrastif pour aligner les représentations texte et image avant de les fusionner via des couches Transformer co-attentionnelles, améliorant la qualité de l'interaction.

📖
المصطلحات

Embedding Modality-Agnostic

Représentation vectorielle apprise par un modèle multimodal qui capture des sémantiques indépendantes de la modalité d'origine, permettant par exemple de retrouver une image à partir d'une requête textuelle.

📖
المصطلحات

Modèle de Fondation Multimodal

Grand modèle pré-entraîné sur des données massives et diversifiées (texte, image, audio, etc.), conçu pour être adapté (fine-tuné) à une très large gamme de tâches en aval avec un minimum d'efforts.

📖
المصطلحات

Unified-IO

Modèle unifié qui traite une vaste gamme de modalités en entrée (texte, images, audio, etc.) et en sortie (génération de texte, dessin, etc.) en utilisant une seule architecture Transformer et un format de séquence unifié.

📖
المصطلحات

Patch Embedding Visuel

Technique popularisée par Vision Transformer (ViT) où une image est découpée en une grille de patches non chevauchants, chacun étant ensuite linéarisé et projeté en un vecteur d'embedding pour être traité comme un token.

📖
المصطلحات

التدريب المسبق متعدد المهام ومتعدد الوسائط

استراتيجية تدريب مسبق يتم فيها تحسين النموذج في وقت واحد على أهداف متعددة من وسائط مختلفة (مثل: حجب اللغة، تنبؤ الصور، محاذاة الصوت مع النص) لتعلم تمثيلات قوية.

🔍

لم يتم العثور على نتائج