🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Мультимодальный Трансформер

Архитектура нейронной сети типа Transformer, предназначенная для одновременной обработки и интеграции данных из нескольких модальностей, таких как текст, изображение, аудио или видео, в общее пространство представления.

📖
термины

Унифицированное Пространство Представления

Единое латентное векторное пространство, в которое проецируются эмбеддинги всех модальностей (текст, изображение и т.д.), позволяющее проводить прямые семантические сравнения и операции мультимодального рассуждения.

📖
термины

Модель Видение-Язык (VLM)

Специфический класс мультимодальных трансформеров, специализирующихся на совместном понимании текста и изображений, используемых для таких задач, как подписание изображений, VQA или поиск изображений по тексту.

📖
термины

ALBEF (Выравнивание перед Слиянием)

Модель видение-язык, использующая контрастное предварительное обучение для выравнивания текстовых и визуальных представлений перед их слиянием через со-внимательные слои Transformer, улучшая качество взаимодействия.

📖
термины

Модально-Независимый Эмбеддинг

Векторное представление, изучаемое мультимодальной моделью, которое захватывает семантику, независимую от исходной модальности, позволяя, например, находить изображение по текстовому запросу.

📖
термины

Мультимодальная Фондовая Модель

Крупная предварительно обученная модель на массивных и разнообразных данных (текст, изображение, аудио и т.д.), предназначенная для адаптации (тонкой настройки) к очень широкому спектру последующих задач с минимальными усилиями.

📖
термины

Unified-IO

Унифицированная модель, обрабатывающая широкий спектр модальностей на входе (текст, изображения, аудио и т.д.) и на выходе (генерация текста, рисование и т.д.) с использованием единой архитектуры Transformer и унифицированного формата последовательности.

📖
термины

Визуальный Патч-Эмбеддинг

Техника, популяризированная Vision Transformer (ViT), где изображение разбивается на сетку неперекрывающихся патчей, каждый из которых затем линеаризуется и проецируется в вектор эмбеддинга для обработки как токен.

📖
термины

Многозадачное Мультимодальное Предварительное Обучение

Стратегия предварительного обучения, при которой модель оптимизируется одновременно по нескольким целям из различных модальностей (например: маскирование языка, предсказание изображений, согласование аудио-текста) для изучения устойчивых представлений.

🔍

Результаты не найдены