Мультимодальные трансформеры

📖

термины

ALBEF (Align Before Fuse)

Инновационная архитектура, которая сначала выравнивает текстовые и визуальные представления в общем пространстве перед их слиянием, используя дистилляцию с моментом для повышения производительности.

📖

термины

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Архитектура сквозного обнаружения объектов, модулируемая естественным языком, позволяющая выполнять сложные текстовые запросы для локализации и идентификации объектов на изображениях.

📖

термины

UNITER (UNiversal Image-TExt Representation)

Предобученная модель на 4 основных многомодальных задачах (сопоставление изображения и текста, маскированное моделирование языка, маскированное моделирование областей, сопоставление слов и областей) для универсального понимания зрения и языка.

📖

термины

VILLA (Vision-and-Language Large-scale model)

Крупномасштабная предобученная модель с унифицированной архитектурой Трансформера для задач понимания зрения и языка, использующая перекрестное маскированное предобучение.

📖

термины

FLAVA (Foundational Language and Vision Alignment)

Унифицированная фундаментальная многомодальная модель с простой архитектурой Трансформера, предобученная одновременно на данных только текста, только изображения и многомодальных данных.

📖

термины

Oscar (Object-Semantics Aligned Pre-training)

Подход к предобучению, который вводит метки обнаруженных объектов в качестве семантических якорей для выравнивания текста и изображений, значительно улучшая многомодальное понимание.

📖

термины

VinVL (Vision and Language Pre-training with enhanced Visual features)

Фреймворк, улучшающий визуальные характеристики с помощью крупномасштабного детектора объектов и атрибутов, достигающий передовых результатов на бенчмарках V+L.

📖

термины

BridgeTower

Архитектура, вводящая «мосты» между унимодальными энкодерами для облегчения глубокого взаимодействия между модальностями, оптимизирующая обмен информацией между текстом и изображением на различных уровнях.

📖

термины

Pix2Struct

Предварительно обученная модель Transformer на задаче парсинга скриншотов, отлично справляющаяся с пониманием пользовательских интерфейсов, диаграмм и визуально структурированных документов.

📖

термины

PaLI (Pathways Language and Image model)

Массивная мультимодальная модель на основе Pathways, объединяющая визуальный энкодер и текстовый энкодер-декодер для задач визуального перевода и визуального ответа на вопросы.

Глоссарий ИИ

ALBEF (Align Before Fuse)

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

UNITER (UNiversal Image-TExt Representation)

VILLA (Vision-and-Language Large-scale model)

FLAVA (Foundational Language and Vision Alignment)

Oscar (Object-Semantics Aligned Pre-training)

VinVL (Vision and Language Pre-training with enhanced Visual features)

BridgeTower

Pix2Struct

PaLI (Pathways Language and Image model)

Результаты не найдены