Słownik AI
Kompletny słownik sztucznej inteligencji
ALBEF (Align Before Fuse)
Architecture innovante qui aligne d'abord les représentations texte-image dans un espace partagé avant de les fusionner, utilisant un momentum distillation pour améliorer la performance.
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
Architecture de détection d'objets end-to-end modulée par le langage naturel, permettant des requêtes textuelles complexes pour localiser et identifier des objets dans les images.
UNITER (UNiversal Image-TExt Representation)
Modèle pré-entraîné sur 4 grandes tâches multimodales (image-text matching, masked language modeling, masked region modeling, word-region matching) pour une compréhension vision-langage universelle.
VILLA (Vision-and-Language Large-scale model)
Modèle à grande échelle pré-entraîné avec une architecture Transformer unifiée pour les tâches de compréhension vision-langage, utilisant des pré-entraînements masqués croisés.
FLAVA (Foundational Language and Vision Alignment)
Modèle fondationnel multimodal unifié avec une architecture Transformer simple, pré-entraîné simultanément sur des données texte uniquement, image uniquement et multimodales.
Oscar (Object-Semantics Aligned Pre-training)
Approche de pré-entraînement qui introduit des étiquettes d'objets détectés comme ancrages sémantiques pour aligner texte et images, améliorant significativement la compréhension multimodale.
VinVL (Vision and Language Pre-training with enhanced Visual features)
Framework améliorant les caractéristiques visuelles avec un détecteur d'objets à grande échelle et des attributs, atteignant des performances state-of-the-art sur les benchmarks V+L.
BridgeTower
Architecture introduisant des ponts entre les encoders unimodaux pour faciliter l'interaction profonde entre modalités, optimisant l'échange d'informations texte-image à différentes échelles.
Pix2Struct
Modèle Transformer pré-entraîné sur la tâche de截图 parsing, excellant dans la compréhension d'interfaces utilisateur, diagrammes et documents visuellement structurés.
PaLI (Pathways Language and Image model)
Modèle multimodal massif basé sur Pathways, combinant un encodeur d'images et un encodeur-décodeur de texte pour des tâches de traduction visuelle et de réponse visuelle aux questions.