Мультимодальный перевод
Автоматическое подписывание изображений
Автоматическая генерация текстовых описаний, описывающих содержание изображений, сочетающая компьютерное зрение и обработку естественного языка. Современные модели используют кодировщики CNN или ViT и декодеры трансформеров.
← Назад