Мультимодальные Трансформеры
Визуальный Патч-Эмбеддинг
Техника, популяризированная Vision Transformer (ViT), где изображение разбивается на сетку неперекрывающихся патчей, каждый из которых затем линеаризуется и проецируется в вектор эмбеддинга для обработки как токен.
← Назад