Глоссарий ИИ
Полный словарь искусственного интеллекта
ALBEF (Align Before Fuse)
Инновационная архитектура, которая сначала выравнивает текстовые и визуальные представления в общем пространстве перед их слиянием, используя дистилляцию с моментом для повышения производительности.
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
Архитектура сквозного обнаружения объектов, модулируемая естественным языком, позволяющая выполнять сложные текстовые запросы для локализации и идентификации объектов на изображениях.
UNITER (UNiversal Image-TExt Representation)
Предобученная модель на 4 основных многомодальных задачах (сопоставление изображения и текста, маскированное моделирование языка, маскированное моделирование областей, сопоставление слов и областей) для универсального понимания зрения и языка.
VILLA (Vision-and-Language Large-scale model)
Крупномасштабная предобученная модель с унифицированной архитектурой Трансформера для задач понимания зрения и языка, использующая перекрестное маскированное предобучение.
FLAVA (Foundational Language and Vision Alignment)
Унифицированная фундаментальная многомодальная модель с простой архитектурой Трансформера, предобученная одновременно на данных только текста, только изображения и многомодальных данных.
Oscar (Object-Semantics Aligned Pre-training)
Подход к предобучению, который вводит метки обнаруженных объектов в качестве семантических якорей для выравнивания текста и изображений, значительно улучшая многомодальное понимание.
VinVL (Vision and Language Pre-training with enhanced Visual features)
Фреймворк, улучшающий визуальные характеристики с помощью крупномасштабного детектора объектов и атрибутов, достигающий передовых результатов на бенчмарках V+L.
BridgeTower
Архитектура, вводящая «мосты» между унимодальными энкодерами для облегчения глубокого взаимодействия между модальностями, оптимизирующая обмен информацией между текстом и изображением на различных уровнях.
Pix2Struct
Предварительно обученная модель Transformer на задаче парсинга скриншотов, отлично справляющаяся с пониманием пользовательских интерфейсов, диаграмм и визуально структурированных документов.
PaLI (Pathways Language and Image model)
Массивная мультимодальная модель на основе Pathways, объединяющая визуальный энкодер и текстовый энкодер-декодер для задач визуального перевода и визуального ответа на вопросы.