Глоссарий ИИ
Полный словарь искусственного интеллекта
Мультимодальная Диффузия
Класс генеративных моделей, изучающих совместное распределение вероятностей по нескольким модальностям (текст, изображение, аудио) через общий или скоординированный процесс диффузии.
Унифицированное Латентное Пространство
Общее векторное представление, в котором данные различных модальностей проецируются для обеспечения их взаимодействия и взаимного преобразования в рамках модели диффузии.
Кросс-Модальное Условное Формирование
Техника, при которой процесс генерации одной модальности направляется информацией из другой модальности, например, генерация изображения из текста или аудио из изображения.
Структурированный Мультимодальный Шум
Процесс добавления шума, который сохраняет межмодальные корреляции, совместно ухудшая различные модальности для поддержания их семантического выравнивания на протяжении всего процесса диффузии.
Координированное Шумоподавление
Этап удаления шума, на котором нейронные сети, предназначенные для каждой модальности, обмениваются информацией для согласованного восстановления данных из их общей зашумленной версии.
Мультимодальный Кодировщик
Нейронная сеть, отвечающая за проецирование данных различных модальностей в унифицированное латентное пространство, захватывая их существенные характеристики и взаимосвязи.
Мультимодальный Декодировщик
Нейронная сеть, которая восстанавливает данные каждой модальности из их представления в унифицированном латентном пространстве после процесса удаления шума.
Межмодальное Выравнивание
Цель обучения, направленная на минимизацию расстояния между латентными представлениями различных модальностей, описывающих одно и то же понятие, обеспечивая их семантическую согласованность.
Унифицированная модель диффузии
Архитектура единой модели, которая одновременно обрабатывает и генерирует несколько модальностей, используя единый процесс диффузии и общий набор весов.
Мультимодальное управление
Техника вывода, которая использует градиент мультимодальной классификационной модели для направления процесса выборки к выходным данным, лучше соответствующим заданному условию.
Многорукая диффузия
Архитектура, в которой центральный процесс диффузии имеет специализированные 'руки' для обработки зашумления и удаления шума, специфичных для каждой модальности, при этом используя общее ядро.
Мультимодальная потеря согласованности
Функция потерь, штрафующая за семантические несоответствия между сгенерированными модальностями, измеряемые, например, через косинусное расстояние в унифицированном латентном пространстве.
Межмодальная выборка
Процесс генерации, при котором выбирается одна модальность при условии на основе другой уже существующей или одновременно генерируемой модальности.
Общая сеть предсказания шума
Центральный компонент модели диффузии, часто архитектура U-Net, в котором нижние слои являются общими для всех модальностей, а верхние слои специализированы.
Мультимодальное временное вложение
Представление временного шага процесса диффузии, которое внедряется в модель, часто обусловленное модальностью для управления различными динамиками шума.
Мультимодальная последовательная диффузия
Применение диффузии к последовательным данным, включающим несколько модальностей, таких как генерация видео (изображение + время) или синхронизированного диалога (аудио + текст).
Мультимодальная токенизация
Процесс дискретизации данных различных модальностей в унифицированную последовательность токенов, которые могут обрабатываться архитектурой типа Transformer в рамках диффузии.