Глоссарий ИИ
Полный словарь искусственного интеллекта
Мультимодальный Трансформер
Архитектура нейронной сети типа Transformer, предназначенная для одновременной обработки и интеграции данных из нескольких модальностей, таких как текст, изображение, аудио или видео, в общее пространство представления.
Унифицированное Пространство Представления
Единое латентное векторное пространство, в которое проецируются эмбеддинги всех модальностей (текст, изображение и т.д.), позволяющее проводить прямые семантические сравнения и операции мультимодального рассуждения.
Модель Видение-Язык (VLM)
Специфический класс мультимодальных трансформеров, специализирующихся на совместном понимании текста и изображений, используемых для таких задач, как подписание изображений, VQA или поиск изображений по тексту.
ALBEF (Выравнивание перед Слиянием)
Модель видение-язык, использующая контрастное предварительное обучение для выравнивания текстовых и визуальных представлений перед их слиянием через со-внимательные слои Transformer, улучшая качество взаимодействия.
Модально-Независимый Эмбеддинг
Векторное представление, изучаемое мультимодальной моделью, которое захватывает семантику, независимую от исходной модальности, позволяя, например, находить изображение по текстовому запросу.
Мультимодальная Фондовая Модель
Крупная предварительно обученная модель на массивных и разнообразных данных (текст, изображение, аудио и т.д.), предназначенная для адаптации (тонкой настройки) к очень широкому спектру последующих задач с минимальными усилиями.
Unified-IO
Унифицированная модель, обрабатывающая широкий спектр модальностей на входе (текст, изображения, аудио и т.д.) и на выходе (генерация текста, рисование и т.д.) с использованием единой архитектуры Transformer и унифицированного формата последовательности.
Визуальный Патч-Эмбеддинг
Техника, популяризированная Vision Transformer (ViT), где изображение разбивается на сетку неперекрывающихся патчей, каждый из которых затем линеаризуется и проецируется в вектор эмбеддинга для обработки как токен.
Многозадачное Мультимодальное Предварительное Обучение
Стратегия предварительного обучения, при которой модель оптимизируется одновременно по нескольким целям из различных модальностей (например: маскирование языка, предсказание изображений, согласование аудио-текста) для изучения устойчивых представлений.