Мультимодальные модели
Визуальная токенизация
Техника, разбивающая изображение на последовательность патчей или дискретных токенов, часто с помощью нейросети, такой как Vision Transformer (ViT), чтобы сделать его совместимым с архитектурой текстовых трансформеров.
← Назад