Мультимодальные модели

📖

термины

Визуально-языковая модель (VLM)

Подкласс мультимодальных моделей, специализирующихся на совместном понимании текста и изображений, способный выполнять такие задачи, как создание подписей к изображениям, визуальное мышление или генерация изображений по тексту.

📖

термины

Визуальная токенизация

Техника, разбивающая изображение на последовательность патчей или дискретных токенов, часто с помощью нейросети, такой как Vision Transformer (ViT), чтобы сделать его совместимым с архитектурой текстовых трансформеров.

📖

термины

Модель выравнивания

Модель, часто основанная на контрастивном подходе, таком как CLIP, обученная на огромных корпусах пар (изображение, текст) для проецирования обеих модальностей в общее векторное пространство, где косинусное сходство отражает их взаимную релевантность.

📖

термины

Мультимодальная условная генерация

Задача генерации, в которой выходные данные (например, текст, изображение) создаются на основе одного или нескольких входов разных модальностей, таких как описание изображения или создание изображения по тексту.

📖

термины

Мультимодальное цепное рассуждение

Способность модели использовать информацию из нескольких модальностей для построения логической последовательности мыслей и достижения вывода, например, анализ графика и текста для ответа на вопрос.

📖

термины

Мультимодальный перцептрон

Теоретическая концепция или примитивная архитектура, в которой входы различной природы объединяются, часто путем конкатенации или операции слияния, перед обработкой полносвязными слоями нейронов.

📖

термины

Мультимодальная диффузионная модель

Генеративная архитектура, использующая итеративный процесс зашумления и устранения шума для создания данных (например, изображений), обусловленных другой модальностью (например, текстовым описанием), при этом процесс устранения шума направляется информацией об условии.

📖

термины

Раздельное кодирование против Единое кодирование

Две архитектурные стратегии для мультимодальных моделей: раздельное кодирование обрабатывает каждую модальность отдельным кодировщиком перед слиянием, в то время как единое кодирование использует один трансформер для обработки последовательности смешанных токенов.

📖

термины

Мультимодальное обучение с нулевым разметкой

Способность модели выполнять задачу в одной модальности (например, классифицировать изображение) без явного обучения для нее, используя знания, перенесенные из другой модальности (например, текст меток классов).

📖

термины

Аудио-визуально-текстовая модель

Продвинутая форма мультимодальной модели, интегрирующая три потока данных (звук, изображение, текст) для сложных задач, таких как описание видео, где модель должна синхронизировать и интерпретировать визуальную и аудиоинформацию для создания текстового описания.

📖

термины

Латентная проекция

Слой нейронной сети, часто представляющий собой простое линейное преобразование, используемый для отображения векторов вложений (эмбеддингов) каждой модальности в общее латентное пространство перед их слиянием или сравнением.

📖

термины

Мультимодальная фундаментальная модель

Модель очень большого масштаба, предварительно обученная на массивах разнородных данных, которая служит основой для адаптации (fine-tuning) к множеству конкретных мультимодальных задач.

📖

термины

Модульность в мультимодальных моделях

Принцип проектирования, при котором кодировщики для каждой модальности представляют собой отдельные и взаимозаменяемые модули, что позволяет обновлять или заменять компонент (например, визуальный кодировщик) без повторного обучения всей модели.

📖

термины

Мультимодальный промптинг

Техника взаимодействия с моделью, при которой входные данные ('промпт') состоят из нескольких модальностей, например, изображение, сопровождаемое текстовым вопросом, для направления модели к конкретному ответу.

Глоссарий ИИ

Визуально-языковая модель (VLM)

Визуальная токенизация

Модель выравнивания

Мультимодальная условная генерация

Мультимодальное цепное рассуждение

Мультимодальный перцептрон

Мультимодальная диффузионная модель

Раздельное кодирование против Единое кодирование

Мультимодальное обучение с нулевым разметкой

Аудио-визуально-текстовая модель

Латентная проекция

Мультимодальная фундаментальная модель

Модульность в мультимодальных моделях

Мультимодальный промптинг

Результаты не найдены