Мультимодальные модели
Визуально-языковая модель (VLM)
Подкласс мультимодальных моделей, специализирующихся на совместном понимании текста и изображений, способный выполнять такие задачи, как создание подписей к изображениям, визуальное мышление или генерация изображений по тексту.
← Назад