🏠 Startseite
Vergleiche
📊 Alle Benchmarks 🦖 Dinosaurier v1 🦖 Dinosaurier v2 ✅ To-Do-Listen-Apps 🎨 Kreative freie Seiten 🎯 FSACB - Ultimatives Showcase 🌍 Übersetzungs-Benchmark
Modelle
🏆 Top 10 Modelle 🆓 Kostenlose Modelle 📋 Alle Modelle ⚙️ Kilo Code
Ressourcen
💬 Prompt-Bibliothek 📖 KI-Glossar 🔗 Nützliche Links

KI-Glossar

Das vollständige Wörterbuch der Künstlichen Intelligenz

162
Kategorien
2.032
Unterkategorien
23.060
Begriffe
📖
Begriffe

ALBEF (Align Before Fuse)

Architecture innovante qui aligne d'abord les représentations texte-image dans un espace partagé avant de les fusionner, utilisant un momentum distillation pour améliorer la performance.

📖
Begriffe

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Architecture de détection d'objets end-to-end modulée par le langage naturel, permettant des requêtes textuelles complexes pour localiser et identifier des objets dans les images.

📖
Begriffe

UNITER (UNiversal Image-TExt Representation)

Modèle pré-entraîné sur 4 grandes tâches multimodales (image-text matching, masked language modeling, masked region modeling, word-region matching) pour une compréhension vision-langage universelle.

📖
Begriffe

VILLA (Vision-and-Language Large-scale model)

Modèle à grande échelle pré-entraîné avec une architecture Transformer unifiée pour les tâches de compréhension vision-langage, utilisant des pré-entraînements masqués croisés.

📖
Begriffe

FLAVA (Foundational Language and Vision Alignment)

Modèle fondationnel multimodal unifié avec une architecture Transformer simple, pré-entraîné simultanément sur des données texte uniquement, image uniquement et multimodales.

📖
Begriffe

Oscar (Object-Semantics Aligned Pre-training)

Approche de pré-entraînement qui introduit des étiquettes d'objets détectés comme ancrages sémantiques pour aligner texte et images, améliorant significativement la compréhension multimodale.

📖
Begriffe

VinVL (Vision and Language Pre-training with enhanced Visual features)

Framework améliorant les caractéristiques visuelles avec un détecteur d'objets à grande échelle et des attributs, atteignant des performances state-of-the-art sur les benchmarks V+L.

📖
Begriffe

BridgeTower

Architecture introduisant des ponts entre les encoders unimodaux pour faciliter l'interaction profonde entre modalités, optimisant l'échange d'informations texte-image à différentes échelles.

📖
Begriffe

Pix2Struct

Modèle Transformer pré-entraîné sur la tâche de截图 parsing, excellant dans la compréhension d'interfaces utilisateur, diagrammes et documents visuellement structurés.

📖
Begriffe

PaLI (Pathways Language and Image model)

Modèle multimodal massif basé sur Pathways, combinant un encodeur d'images et un encodeur-décodeur de texte pour des tâches de traduction visuelle et de réponse visuelle aux questions.

🔍

Keine Ergebnisse gefunden