Мультимодальные трансформеры

📖

термины

Multi-Modal Transformer

Architecture Transformer étendue capable de traiter simultanément plusieurs modalités de données (texte, image, audio) en utilisant des mécanismes d'attention croisée pour intégrer l'information inter-modale.

📖

термины

Vision-Language Transformer

Architecture Transformer spécifiquement conçue pour comprendre et générer conjointement du contenu visuel et textuel, utilisant des encodeurs partagés ou séparés pour chaque modalité.

📖

термины

Fusion Mechanism

Stratégie algorithmique permettant de combiner efficacement les représentations de différentes modalités à un ou plusieurs niveaux du réseau, incluant la fusion précoce, tardive ou hiérarchique.

📖

термины

Modality Embedding

Vecteurs d'encodage spécifiques ajoutés aux token embeddings pour indiquer la modalité d'origine (texte, image, audio) permettant au Transformer de distinguer et traiter différemment chaque type de données.

📖

термины

CLIP

Modèle Contrastive Language-Image Pre-training entraîné sur 400 millions de paires image-texte utilisant un objectif contrastif pour apprendre des représentations partagées entre vision et langage.

📖

термины

VLP

Famille de modèles Vision-Language Pre-training utilisant un encodeur Transformer partagé pour les deux modalités avec des tâches pré-entraînement comme le masked modeling et la prédiction image-texte.

📖

термины

Unified Encoder-Decoder

Architecture Transformer où le même encodeur traite toutes les modalités d'entrée, et un décodeur génère la sortie, permettant des tâches comme VQA, captioning et retrieval avec un seul modèle.

📖

термины

Modality Gap

Différence structurelle et sémantique inhérente entre les espaces de représentation de différentes modalités, nécessitant des mécanismes d'alignement spécifiques dans les modèles multi-modaux.

📖

термины

Мультимодальная слияние

Процесс интеграции признаков из различных модальностей в единое представление, использующий межмодальные взаимодополняемости для повышения производительности на сложных задачах.

📖

термины

Кросс-модальное выравнивание

Цель обучения, направленная на семантическое выравнивание представлений разных модальностей в общем пространстве, позволяющее устанавливать соответствие между визуальными и языковыми концепциями.

📖

термины

Perceiver IO

Универсальная архитектура Трансформера, способная обрабатывать любую комбинацию модальностей с использованием сети перекрестного внимания между входными данными и набором изученных латентных переменных.

📖

термины

Модель Flamingo

Модель «зрение-язык» с 80 миллиардами параметров, использующая предварительно обученные адаптеры и внимание с затвором для эффективного объединения Vision Transformers и языковых моделей без полного переобучения.

📖

термины

BLIP

Фреймворк Bootstrapping Language-Image Pre-training, генерирующий псевдо-подписи для фильтрации шума и улучшения качества данных, использующий мультимодальный энкодер и декодер «изображение-текст».

📖

термины

CoCa

Модель Contrastive Captioners, объединяющая контрастивную цель для обучения представлений и генеративную цель для создания подписей в единой унифицированной архитектуре Трансформера.

📖

термины

BEiT-3

Модель Bidirectional Encoder representation from Image Transformer v3, использующая многопутевой Трансформер с модально-специфическими эмбеддингами для унифицированной обработки изображений, текста и изображений с текстом.

📖

термины

LayoutLM

Семейство моделей, предварительно обученных на документах, объединяющих 2D пространственное расположение, текст и визуальную информацию для понимания структурированных документов, таких как формы и счета.

📖

термины

UniPerceiver

Framework универсального восприятия, обрабатывающий различные много模альные задачи как единую проблему генерации токенов, использующий одну модель Transformer для классификации, обнаружения и генерации.

📖

термины

GIT

Модель Generative Image-to-text Transformer, обрабатывающая изображения как иностранный язык и использующая простую архитектуру кодировщик-декодер для описания изображений и VQA с производительностью state-of-the-art.

Глоссарий ИИ

Multi-Modal Transformer

Vision-Language Transformer

Fusion Mechanism

Modality Embedding

CLIP

VLP

Unified Encoder-Decoder

Modality Gap

Мультимодальная слияние

Кросс-модальное выравнивание

Perceiver IO

Модель Flamingo

BLIP

CoCa

BEiT-3

LayoutLM

UniPerceiver

GIT

Результаты не найдены