Мультимодальные трансформеры
UNITER (UNiversal Image-TExt Representation)
Предобученная модель на 4 основных многомодальных задачах (сопоставление изображения и текста, маскированное моделирование языка, маскированное моделирование областей, сопоставление слов и областей) для универсального понимания зрения и языка.
← Назад