Мультимодальные трансформеры
FLAVA (Foundational Language and Vision Alignment)
Унифицированная фундаментальная многомодальная модель с простой архитектурой Трансформера, предобученная одновременно на данных только текста, только изображения и многомодальных данных.
← Назад