Мультимодальные трансформеры
Pix2Struct
Предварительно обученная модель Transformer на задаче парсинга скриншотов, отлично справляющаяся с пониманием пользовательских интерфейсов, диаграмм и визуально структурированных документов.
← Назад