Мультимодальный QA
Vision-Language Transformer (VLT)
Архитектура трансформера, предварительно обученная на больших корпусах пар изображений и текстов, предназначенная для задач мультимодального понимания и генерации.
← Назад