Мультимодальные Трансформеры

📖

термины

Мультимодальный Трансформер

Архитектура нейронной сети типа Transformer, предназначенная для одновременной обработки и интеграции данных из нескольких модальностей, таких как текст, изображение, аудио или видео, в общее пространство представления.

📖

термины

Унифицированное Пространство Представления

Единое латентное векторное пространство, в которое проецируются эмбеддинги всех модальностей (текст, изображение и т.д.), позволяющее проводить прямые семантические сравнения и операции мультимодального рассуждения.

📖

термины

Модель Видение-Язык (VLM)

Специфический класс мультимодальных трансформеров, специализирующихся на совместном понимании текста и изображений, используемых для таких задач, как подписание изображений, VQA или поиск изображений по тексту.

📖

термины

ALBEF (Выравнивание перед Слиянием)

Модель видение-язык, использующая контрастное предварительное обучение для выравнивания текстовых и визуальных представлений перед их слиянием через со-внимательные слои Transformer, улучшая качество взаимодействия.

📖

термины

Модально-Независимый Эмбеддинг

Векторное представление, изучаемое мультимодальной моделью, которое захватывает семантику, независимую от исходной модальности, позволяя, например, находить изображение по текстовому запросу.

📖

термины

Мультимодальная Фондовая Модель

Крупная предварительно обученная модель на массивных и разнообразных данных (текст, изображение, аудио и т.д.), предназначенная для адаптации (тонкой настройки) к очень широкому спектру последующих задач с минимальными усилиями.

📖

термины

Unified-IO

Унифицированная модель, обрабатывающая широкий спектр модальностей на входе (текст, изображения, аудио и т.д.) и на выходе (генерация текста, рисование и т.д.) с использованием единой архитектуры Transformer и унифицированного формата последовательности.

📖

термины

Визуальный Патч-Эмбеддинг

Техника, популяризированная Vision Transformer (ViT), где изображение разбивается на сетку неперекрывающихся патчей, каждый из которых затем линеаризуется и проецируется в вектор эмбеддинга для обработки как токен.

📖

термины

Многозадачное Мультимодальное Предварительное Обучение

Стратегия предварительного обучения, при которой модель оптимизируется одновременно по нескольким целям из различных модальностей (например: маскирование языка, предсказание изображений, согласование аудио-текста) для изучения устойчивых представлений.

Глоссарий ИИ

Мультимодальный Трансформер

Унифицированное Пространство Представления

Модель Видение-Язык (VLM)

ALBEF (Выравнивание перед Слиянием)

Модально-Независимый Эмбеддинг

Мультимодальная Фондовая Модель

Unified-IO

Визуальный Патч-Эмбеддинг

Многозадачное Мультимодальное Предварительное Обучение

Результаты не найдены