🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

ALBEF (Align Before Fuse)

Инновационная архитектура, которая сначала выравнивает текстовые и визуальные представления в общем пространстве перед их слиянием, используя дистилляцию с моментом для повышения производительности.

📖
термины

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Архитектура сквозного обнаружения объектов, модулируемая естественным языком, позволяющая выполнять сложные текстовые запросы для локализации и идентификации объектов на изображениях.

📖
термины

UNITER (UNiversal Image-TExt Representation)

Предобученная модель на 4 основных многомодальных задачах (сопоставление изображения и текста, маскированное моделирование языка, маскированное моделирование областей, сопоставление слов и областей) для универсального понимания зрения и языка.

📖
термины

VILLA (Vision-and-Language Large-scale model)

Крупномасштабная предобученная модель с унифицированной архитектурой Трансформера для задач понимания зрения и языка, использующая перекрестное маскированное предобучение.

📖
термины

FLAVA (Foundational Language and Vision Alignment)

Унифицированная фундаментальная многомодальная модель с простой архитектурой Трансформера, предобученная одновременно на данных только текста, только изображения и многомодальных данных.

📖
термины

Oscar (Object-Semantics Aligned Pre-training)

Подход к предобучению, который вводит метки обнаруженных объектов в качестве семантических якорей для выравнивания текста и изображений, значительно улучшая многомодальное понимание.

📖
термины

VinVL (Vision and Language Pre-training with enhanced Visual features)

Фреймворк, улучшающий визуальные характеристики с помощью крупномасштабного детектора объектов и атрибутов, достигающий передовых результатов на бенчмарках V+L.

📖
термины

BridgeTower

Архитектура, вводящая «мосты» между унимодальными энкодерами для облегчения глубокого взаимодействия между модальностями, оптимизирующая обмен информацией между текстом и изображением на различных уровнях.

📖
термины

Pix2Struct

Предварительно обученная модель Transformer на задаче парсинга скриншотов, отлично справляющаяся с пониманием пользовательских интерфейсов, диаграмм и визуально структурированных документов.

📖
термины

PaLI (Pathways Language and Image model)

Массивная мультимодальная модель на основе Pathways, объединяющая визуальный энкодер и текстовый энкодер-декодер для задач визуального перевода и визуального ответа на вопросы.

🔍

Результаты не найдены