🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

ALBEF (Align Before Fuse)

Architecture innovante qui aligne d'abord les représentations texte-image dans un espace partagé avant de les fusionner, utilisant un momentum distillation pour améliorer la performance.

📖
términos

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Architecture de détection d'objets end-to-end modulée par le langage naturel, permettant des requêtes textuelles complexes pour localiser et identifier des objets dans les images.

📖
términos

UNITER (UNiversal Image-TExt Representation)

Modèle pré-entraîné sur 4 grandes tâches multimodales (image-text matching, masked language modeling, masked region modeling, word-region matching) pour une compréhension vision-langage universelle.

📖
términos

VILLA (Vision-and-Language Large-scale model)

Modèle à grande échelle pré-entraîné avec une architecture Transformer unifiée pour les tâches de compréhension vision-langage, utilisant des pré-entraînements masqués croisés.

📖
términos

FLAVA (Foundational Language and Vision Alignment)

Modèle fondationnel multimodal unifié avec une architecture Transformer simple, pré-entraîné simultanément sur des données texte uniquement, image uniquement et multimodales.

📖
términos

Oscar (Object-Semantics Aligned Pre-training)

Approche de pré-entraînement qui introduit des étiquettes d'objets détectés comme ancrages sémantiques pour aligner texte et images, améliorant significativement la compréhension multimodale.

📖
términos

VinVL (Vision and Language Pre-training with enhanced Visual features)

Framework améliorant les caractéristiques visuelles avec un détecteur d'objets à grande échelle et des attributs, atteignant des performances state-of-the-art sur les benchmarks V+L.

📖
términos

BridgeTower

Architecture introduisant des ponts entre les encoders unimodaux pour faciliter l'interaction profonde entre modalités, optimisant l'échange d'informations texte-image à différentes échelles.

📖
términos

Pix2Struct

Modèle Transformer pré-entraîné sur la tâche de截图 parsing, excellant dans la compréhension d'interfaces utilisateur, diagrammes et documents visuellement structurés.

📖
términos

PaLI (Pathways Language and Image model)

Modèle multimodal massif basé sur Pathways, combinant un encodeur d'images et un encodeur-décodeur de texte pour des tâches de traduction visuelle et de réponse visuelle aux questions.

🔍

No se encontraron resultados