🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Визуально-языковая модель (VLM)

Подкласс мультимодальных моделей, специализирующихся на совместном понимании текста и изображений, способный выполнять такие задачи, как создание подписей к изображениям, визуальное мышление или генерация изображений по тексту.

📖
термины

Визуальная токенизация

Техника, разбивающая изображение на последовательность патчей или дискретных токенов, часто с помощью нейросети, такой как Vision Transformer (ViT), чтобы сделать его совместимым с архитектурой текстовых трансформеров.

📖
термины

Модель выравнивания

Модель, часто основанная на контрастивном подходе, таком как CLIP, обученная на огромных корпусах пар (изображение, текст) для проецирования обеих модальностей в общее векторное пространство, где косинусное сходство отражает их взаимную релевантность.

📖
термины

Мультимодальная условная генерация

Задача генерации, в которой выходные данные (например, текст, изображение) создаются на основе одного или нескольких входов разных модальностей, таких как описание изображения или создание изображения по тексту.

📖
термины

Мультимодальное цепное рассуждение

Способность модели использовать информацию из нескольких модальностей для построения логической последовательности мыслей и достижения вывода, например, анализ графика и текста для ответа на вопрос.

📖
термины

Мультимодальный перцептрон

Теоретическая концепция или примитивная архитектура, в которой входы различной природы объединяются, часто путем конкатенации или операции слияния, перед обработкой полносвязными слоями нейронов.

📖
термины

Мультимодальная диффузионная модель

Генеративная архитектура, использующая итеративный процесс зашумления и устранения шума для создания данных (например, изображений), обусловленных другой модальностью (например, текстовым описанием), при этом процесс устранения шума направляется информацией об условии.

📖
термины

Раздельное кодирование против Единое кодирование

Две архитектурные стратегии для мультимодальных моделей: раздельное кодирование обрабатывает каждую модальность отдельным кодировщиком перед слиянием, в то время как единое кодирование использует один трансформер для обработки последовательности смешанных токенов.

📖
термины

Мультимодальное обучение с нулевым разметкой

Способность модели выполнять задачу в одной модальности (например, классифицировать изображение) без явного обучения для нее, используя знания, перенесенные из другой модальности (например, текст меток классов).

📖
термины

Аудио-визуально-текстовая модель

Продвинутая форма мультимодальной модели, интегрирующая три потока данных (звук, изображение, текст) для сложных задач, таких как описание видео, где модель должна синхронизировать и интерпретировать визуальную и аудиоинформацию для создания текстового описания.

📖
термины

Латентная проекция

Слой нейронной сети, часто представляющий собой простое линейное преобразование, используемый для отображения векторов вложений (эмбеддингов) каждой модальности в общее латентное пространство перед их слиянием или сравнением.

📖
термины

Мультимодальная фундаментальная модель

Модель очень большого масштаба, предварительно обученная на массивах разнородных данных, которая служит основой для адаптации (fine-tuning) к множеству конкретных мультимодальных задач.

📖
термины

Модульность в мультимодальных моделях

Принцип проектирования, при котором кодировщики для каждой модальности представляют собой отдельные и взаимозаменяемые модули, что позволяет обновлять или заменять компонент (например, визуальный кодировщик) без повторного обучения всей модели.

📖
термины

Мультимодальный промптинг

Техника взаимодействия с моделью, при которой входные данные ('промпт') состоят из нескольких модальностей, например, изображение, сопровождаемое текстовым вопросом, для направления модели к конкретному ответу.

🔍

Результаты не найдены