Глоссарий ИИ
Полный словарь искусственного интеллекта
Multi-Modal Transformer
Architecture Transformer étendue capable de traiter simultanément plusieurs modalités de données (texte, image, audio) en utilisant des mécanismes d'attention croisée pour intégrer l'information inter-modale.
Vision-Language Transformer
Architecture Transformer spécifiquement conçue pour comprendre et générer conjointement du contenu visuel et textuel, utilisant des encodeurs partagés ou séparés pour chaque modalité.
Fusion Mechanism
Stratégie algorithmique permettant de combiner efficacement les représentations de différentes modalités à un ou plusieurs niveaux du réseau, incluant la fusion précoce, tardive ou hiérarchique.
Modality Embedding
Vecteurs d'encodage spécifiques ajoutés aux token embeddings pour indiquer la modalité d'origine (texte, image, audio) permettant au Transformer de distinguer et traiter différemment chaque type de données.
CLIP
Modèle Contrastive Language-Image Pre-training entraîné sur 400 millions de paires image-texte utilisant un objectif contrastif pour apprendre des représentations partagées entre vision et langage.
VLP
Famille de modèles Vision-Language Pre-training utilisant un encodeur Transformer partagé pour les deux modalités avec des tâches pré-entraînement comme le masked modeling et la prédiction image-texte.
Unified Encoder-Decoder
Architecture Transformer où le même encodeur traite toutes les modalités d'entrée, et un décodeur génère la sortie, permettant des tâches comme VQA, captioning et retrieval avec un seul modèle.
Modality Gap
Différence structurelle et sémantique inhérente entre les espaces de représentation de différentes modalités, nécessitant des mécanismes d'alignement spécifiques dans les modèles multi-modaux.
Мультимодальная слияние
Процесс интеграции признаков из различных модальностей в единое представление, использующий межмодальные взаимодополняемости для повышения производительности на сложных задачах.
Кросс-модальное выравнивание
Цель обучения, направленная на семантическое выравнивание представлений разных модальностей в общем пространстве, позволяющее устанавливать соответствие между визуальными и языковыми концепциями.
Perceiver IO
Универсальная архитектура Трансформера, способная обрабатывать любую комбинацию модальностей с использованием сети перекрестного внимания между входными данными и набором изученных латентных переменных.
Модель Flamingo
Модель «зрение-язык» с 80 миллиардами параметров, использующая предварительно обученные адаптеры и внимание с затвором для эффективного объединения Vision Transformers и языковых моделей без полного переобучения.
BLIP
Фреймворк Bootstrapping Language-Image Pre-training, генерирующий псевдо-подписи для фильтрации шума и улучшения качества данных, использующий мультимодальный энкодер и декодер «изображение-текст».
CoCa
Модель Contrastive Captioners, объединяющая контрастивную цель для обучения представлений и генеративную цель для создания подписей в единой унифицированной архитектуре Трансформера.
BEiT-3
Модель Bidirectional Encoder representation from Image Transformer v3, использующая многопутевой Трансформер с модально-специфическими эмбеддингами для унифицированной обработки изображений, текста и изображений с текстом.
LayoutLM
Семейство моделей, предварительно обученных на документах, объединяющих 2D пространственное расположение, текст и визуальную информацию для понимания структурированных документов, таких как формы и счета.
UniPerceiver
Framework универсального восприятия, обрабатывающий различные много模альные задачи как единую проблему генерации токенов, использующий одну модель Transformer для классификации, обнаружения и генерации.
GIT
Модель Generative Image-to-text Transformer, обрабатывающая изображения как иностранный язык и использующая простую архитектуру кодировщик-декодер для описания изображений и VQA с производительностью state-of-the-art.