🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

Token Fusion

Technique de concaténation ou de fusion des tokens provenant de différentes modalités avant leur traitement par les couches transformer. Permet une intégration précoce des informations multimodales pour une meilleure représentation conjointe.

📖
المصطلحات

ALIGN

Modèle contrastif image-texte entraîné sur un milliard de paires bruitées filtrées automatiquement. Démontre que la quantité de données peut compenser le bruit dans l'apprentissage multimodal à grande échelle.

📖
المصطلحات

Flamingo

Modèle vision-langage qui adapte les transformers pré-entraînés existants avec des modules d'attention visuelle-linguistique. Permet le few-shot learning sur des tâches complexes de compréhension multimodale sans réentraînement complet.

📖
المصطلحات

Cross-Modal Representation

Espace vectoriel partagé où les embeddings de différentes modalités sont alignés sémantiquement pour permettre des interactions inter-modales. Facilite le transfert de connaissances et la compréhension unifiée entre textes, images, audio et vidéo.

📖
المصطلحات

MViT (Multiscale Vision Transformer)

Architecture transformer vidéo qui combine des caractéristiques à plusieurs échelles temporelles et spatiales. Utilise une attention pyramidale pour capturer efficacement les relations à longue portée dans les séquences vidéo.

📖
المصطلحات

Multi-Head Cross Attention

Extension du mécanisme multi-tête où chaque tête apprend différentes correspondances cross-modales entre modalités. Permet une capture plus riche et diversifiée des relations inter-modales dans les architectures transformers multimodales.

🔍

لم يتم العثور على نتائج