🏠 홈
벤치마크
📊 모든 벤치마크 🦖 공룡 v1 🦖 공룡 v2 ✅ 할 일 목록 앱 🎨 창의적인 자유 페이지 🎯 FSACB - 궁극의 쇼케이스 🌍 번역 벤치마크
모델
🏆 톱 10 모델 🆓 무료 모델 📋 모든 모델 ⚙️ 킬로 코드 모드
리소스
💬 프롬프트 라이브러리 📖 AI 용어 사전 🔗 유용한 링크

AI 용어집

인공지능 완전 사전

162
카테고리
2,032
하위 카테고리
23,060
용어
📖
용어

ALBEF (Align Before Fuse)

Architecture innovante qui aligne d'abord les représentations texte-image dans un espace partagé avant de les fusionner, utilisant un momentum distillation pour améliorer la performance.

📖
용어

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Architecture de détection d'objets end-to-end modulée par le langage naturel, permettant des requêtes textuelles complexes pour localiser et identifier des objets dans les images.

📖
용어

UNITER (UNiversal Image-TExt Representation)

Modèle pré-entraîné sur 4 grandes tâches multimodales (image-text matching, masked language modeling, masked region modeling, word-region matching) pour une compréhension vision-langage universelle.

📖
용어

VILLA (Vision-and-Language Large-scale model)

Modèle à grande échelle pré-entraîné avec une architecture Transformer unifiée pour les tâches de compréhension vision-langage, utilisant des pré-entraînements masqués croisés.

📖
용어

FLAVA (Foundational Language and Vision Alignment)

Modèle fondationnel multimodal unifié avec une architecture Transformer simple, pré-entraîné simultanément sur des données texte uniquement, image uniquement et multimodales.

📖
용어

Oscar (Object-Semantics Aligned Pre-training)

Approche de pré-entraînement qui introduit des étiquettes d'objets détectés comme ancrages sémantiques pour aligner texte et images, améliorant significativement la compréhension multimodale.

📖
용어

VinVL (Vision and Language Pre-training with enhanced Visual features)

Framework améliorant les caractéristiques visuelles avec un détecteur d'objets à grande échelle et des attributs, atteignant des performances state-of-the-art sur les benchmarks V+L.

📖
용어

BridgeTower

Architecture introduisant des ponts entre les encoders unimodaux pour faciliter l'interaction profonde entre modalités, optimisant l'échange d'informations texte-image à différentes échelles.

📖
용어

Pix2Struct

Modèle Transformer pré-entraîné sur la tâche de截图 parsing, excellant dans la compréhension d'interfaces utilisateur, diagrammes et documents visuellement structurés.

📖
용어

PaLI (Pathways Language and Image model)

Modèle multimodal massif basé sur Pathways, combinant un encodeur d'images et un encodeur-décodeur de texte pour des tâches de traduction visuelle et de réponse visuelle aux questions.

🔍

결과를 찾을 수 없습니다