🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

ALBEF (Align Before Fuse)

Architecture innovante qui aligne d'abord les représentations texte-image dans un espace partagé avant de les fusionner, utilisant un momentum distillation pour améliorer la performance.

📖
शब्द

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Architecture de détection d'objets end-to-end modulée par le langage naturel, permettant des requêtes textuelles complexes pour localiser et identifier des objets dans les images.

📖
शब्द

UNITER (UNiversal Image-TExt Representation)

Modèle pré-entraîné sur 4 grandes tâches multimodales (image-text matching, masked language modeling, masked region modeling, word-region matching) pour une compréhension vision-langage universelle.

📖
शब्द

VILLA (Vision-and-Language Large-scale model)

Modèle à grande échelle pré-entraîné avec une architecture Transformer unifiée pour les tâches de compréhension vision-langage, utilisant des pré-entraînements masqués croisés.

📖
शब्द

FLAVA (Foundational Language and Vision Alignment)

Modèle fondationnel multimodal unifié avec une architecture Transformer simple, pré-entraîné simultanément sur des données texte uniquement, image uniquement et multimodales.

📖
शब्द

Oscar (Object-Semantics Aligned Pre-training)

Approche de pré-entraînement qui introduit des étiquettes d'objets détectés comme ancrages sémantiques pour aligner texte et images, améliorant significativement la compréhension multimodale.

📖
शब्द

VinVL (Vision and Language Pre-training with enhanced Visual features)

Framework améliorant les caractéristiques visuelles avec un détecteur d'objets à grande échelle et des attributs, atteignant des performances state-of-the-art sur les benchmarks V+L.

📖
शब्द

BridgeTower

Architecture introduisant des ponts entre les encoders unimodaux pour faciliter l'interaction profonde entre modalités, optimisant l'échange d'informations texte-image à différentes échelles.

📖
शब्द

Pix2Struct

Modèle Transformer pré-entraîné sur la tâche de截图 parsing, excellant dans la compréhension d'interfaces utilisateur, diagrammes et documents visuellement structurés.

📖
शब्द

PaLI (Pathways Language and Image model)

Modèle multimodal massif basé sur Pathways, combinant un encodeur d'images et un encodeur-décodeur de texte pour des tâches de traduction visuelle et de réponse visuelle aux questions.

🔍

कोई परिणाम नहीं मिला