Глоссарий ИИ
Полный словарь искусственного интеллекта
Кросс-модальность
Способность системы понимать и связывать информацию, поступающую из различных модальностей, таких как текст и изображения, для обогащения контекстуального понимания.
Vision-Language Transformer (VLT)
Архитектура трансформера, предварительно обученная на больших корпусах пар изображений и текстов, предназначенная для задач мультимодального понимания и генерации.
Визуальное рассуждение
Способность системы вопросно-ответного анализа (QA) выводить неявную информацию, анализируя пространственные отношения, атрибуты объектов или сложные сцены на изображении.
Визуальное привязывание
Процесс привязки лингвистических концепций (слов, фраз) к конкретным сущностям или областям в изображении или видео, создающий осязаемую семантическую связь.
Межмодальное выравнивание
Процесс обучения, который сопоставляет сегменты одной модальности (например, фразу) с релевантными сегментами другой (например, областью изображения).
Векторно-квантованный кодбук (VQ)
Техника, используемая в мультимодальных моделях для дискретизации непрерывных представлений (например, изображений) в конечное множество дискретных токенов, облегчающая их обработку моделями языка.
Мультимодальный перцептрон (MLP)
Нейронная сеть, часто MLP, которая принимает на вход объединенные признаки нескольких модальностей для выполнения итоговой задачи классификации или регрессии.
Двухпоточная модель слияния
Архитектура, в которой каждая модальность обрабатывается отдельной нейронной сетью (потоком) перед тем, как их представления объединяются для совместного принятия решения.
Мультимодальный поиск информации
Задача, состоящая в поиске релевантных документов (например, изображений) на основе запроса в другой модальности (например, текста), используя их сходство в общем пространстве эмбеддингов.
Генерация условного ответа
Процесс, в котором языковая модель генерирует текстовый ответ, содержание которого обусловлено и направлено информацией, извлеченной из нетекстовой модальности, такой как изображение.
Токенизация изображения
Процесс преобразования изображения в последовательность дискретных токенов, часто с помощью VAE или VQ-VAE, чтобы сделать его совместимым с архитектурами типа Transformer.