Мультимодальный QA - Глоссарий ИИ

📖

термины

Кросс-модальность

Способность системы понимать и связывать информацию, поступающую из различных модальностей, таких как текст и изображения, для обогащения контекстуального понимания.

📖

термины

Vision-Language Transformer (VLT)

Архитектура трансформера, предварительно обученная на больших корпусах пар изображений и текстов, предназначенная для задач мультимодального понимания и генерации.

📖

термины

Визуальное рассуждение

Способность системы вопросно-ответного анализа (QA) выводить неявную информацию, анализируя пространственные отношения, атрибуты объектов или сложные сцены на изображении.

📖

термины

Визуальное привязывание

Процесс привязки лингвистических концепций (слов, фраз) к конкретным сущностям или областям в изображении или видео, создающий осязаемую семантическую связь.

📖

термины

Межмодальное выравнивание

Процесс обучения, который сопоставляет сегменты одной модальности (например, фразу) с релевантными сегментами другой (например, областью изображения).

📖

термины

Векторно-квантованный кодбук (VQ)

Техника, используемая в мультимодальных моделях для дискретизации непрерывных представлений (например, изображений) в конечное множество дискретных токенов, облегчающая их обработку моделями языка.

📖

термины

Мультимодальный перцептрон (MLP)

Нейронная сеть, часто MLP, которая принимает на вход объединенные признаки нескольких модальностей для выполнения итоговой задачи классификации или регрессии.

📖

термины

Двухпоточная модель слияния

Архитектура, в которой каждая модальность обрабатывается отдельной нейронной сетью (потоком) перед тем, как их представления объединяются для совместного принятия решения.

📖

термины

Мультимодальный поиск информации

Задача, состоящая в поиске релевантных документов (например, изображений) на основе запроса в другой модальности (например, текста), используя их сходство в общем пространстве эмбеддингов.

📖

термины

Генерация условного ответа

Процесс, в котором языковая модель генерирует текстовый ответ, содержание которого обусловлено и направлено информацией, извлеченной из нетекстовой модальности, такой как изображение.

📖

термины

Токенизация изображения

Процесс преобразования изображения в последовательность дискретных токенов, часто с помощью VAE или VQ-VAE, чтобы сделать его совместимым с архитектурами типа Transformer.

Глоссарий ИИ

Кросс-модальность

Vision-Language Transformer (VLT)

Визуальное рассуждение

Визуальное привязывание

Межмодальное выравнивание

Векторно-квантованный кодбук (VQ)

Мультимодальный перцептрон (MLP)

Двухпоточная модель слияния

Мультимодальный поиск информации

Генерация условного ответа

Токенизация изображения

Результаты не найдены