🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Multi-Modal Transformer

Architecture Transformer étendue capable de traiter simultanément plusieurs modalités de données (texte, image, audio) en utilisant des mécanismes d'attention croisée pour intégrer l'information inter-modale.

📖
термины

Vision-Language Transformer

Architecture Transformer spécifiquement conçue pour comprendre et générer conjointement du contenu visuel et textuel, utilisant des encodeurs partagés ou séparés pour chaque modalité.

📖
термины

Fusion Mechanism

Stratégie algorithmique permettant de combiner efficacement les représentations de différentes modalités à un ou plusieurs niveaux du réseau, incluant la fusion précoce, tardive ou hiérarchique.

📖
термины

Modality Embedding

Vecteurs d'encodage spécifiques ajoutés aux token embeddings pour indiquer la modalité d'origine (texte, image, audio) permettant au Transformer de distinguer et traiter différemment chaque type de données.

📖
термины

CLIP

Modèle Contrastive Language-Image Pre-training entraîné sur 400 millions de paires image-texte utilisant un objectif contrastif pour apprendre des représentations partagées entre vision et langage.

📖
термины

VLP

Famille de modèles Vision-Language Pre-training utilisant un encodeur Transformer partagé pour les deux modalités avec des tâches pré-entraînement comme le masked modeling et la prédiction image-texte.

📖
термины

Unified Encoder-Decoder

Architecture Transformer où le même encodeur traite toutes les modalités d'entrée, et un décodeur génère la sortie, permettant des tâches comme VQA, captioning et retrieval avec un seul modèle.

📖
термины

Modality Gap

Différence structurelle et sémantique inhérente entre les espaces de représentation de différentes modalités, nécessitant des mécanismes d'alignement spécifiques dans les modèles multi-modaux.

📖
термины

Мультимодальная слияние

Процесс интеграции признаков из различных модальностей в единое представление, использующий межмодальные взаимодополняемости для повышения производительности на сложных задачах.

📖
термины

Кросс-модальное выравнивание

Цель обучения, направленная на семантическое выравнивание представлений разных модальностей в общем пространстве, позволяющее устанавливать соответствие между визуальными и языковыми концепциями.

📖
термины

Perceiver IO

Универсальная архитектура Трансформера, способная обрабатывать любую комбинацию модальностей с использованием сети перекрестного внимания между входными данными и набором изученных латентных переменных.

📖
термины

Модель Flamingo

Модель «зрение-язык» с 80 миллиардами параметров, использующая предварительно обученные адаптеры и внимание с затвором для эффективного объединения Vision Transformers и языковых моделей без полного переобучения.

📖
термины

BLIP

Фреймворк Bootstrapping Language-Image Pre-training, генерирующий псевдо-подписи для фильтрации шума и улучшения качества данных, использующий мультимодальный энкодер и декодер «изображение-текст».

📖
термины

CoCa

Модель Contrastive Captioners, объединяющая контрастивную цель для обучения представлений и генеративную цель для создания подписей в единой унифицированной архитектуре Трансформера.

📖
термины

BEiT-3

Модель Bidirectional Encoder representation from Image Transformer v3, использующая многопутевой Трансформер с модально-специфическими эмбеддингами для унифицированной обработки изображений, текста и изображений с текстом.

📖
термины

LayoutLM

Семейство моделей, предварительно обученных на документах, объединяющих 2D пространственное расположение, текст и визуальную информацию для понимания структурированных документов, таких как формы и счета.

📖
термины

UniPerceiver

Framework универсального восприятия, обрабатывающий различные много模альные задачи как единую проблему генерации токенов, использующий одну модель Transformer для классификации, обнаружения и генерации.

📖
термины

GIT

Модель Generative Image-to-text Transformer, обрабатывающая изображения как иностранный язык и использующая простую архитектуру кодировщик-декодер для описания изображений и VQA с производительностью state-of-the-art.

🔍

Результаты не найдены