Мультимодальные трансформеры
GIT
Модель Generative Image-to-text Transformer, обрабатывающая изображения как иностранный язык и использующая простую архитектуру кодировщик-декодер для описания изображений и VQA с производительностью state-of-the-art.
← Назад