Transformers Multimodaux
UNITER (UNiversal Image-TExt Representation)
Modèle pré-entraîné sur 4 grandes tâches multimodales (image-text matching, masked language modeling, masked region modeling, word-region matching) pour une compréhension vision-langage universelle.
← Geri