Глоссарий ИИ
Полный словарь искусственного интеллекта
Модель диффузии аудио
Архитектура генеративной нейронной сети, которая применяет процесс диффузии и прогрессивного удаления шума для синтеза аудиоволн высокой точности из начального случайного шума.
Условный спектрограмм
Временнo-частотное представление аудиосигнала, используемое в качестве входных данных или условия в моделях диффузии, где итеративный процесс удаления шума направляется для восстановления согласованной спектральной структуры.
Нейронный вокодер
Нейронная сеть, которая преобразует промежуточное акустическое представление, такое как спектрограмма или мелодические характеристики, в непрерывную аудиоволну, часто интегрируемая в конце конвейера аудиодиффузии.
Диффузия речи (Speech Diffusion)
Специализированное применение моделей диффузии для генерации речевых сигналов, направленное на захват фонетических, просодических и тембральных нюансов для естественного синтеза речи.
Музыкальная диффузия (Music Diffusion)
Подобласть аудиодиффузии, ориентированная на генерацию музыкального контента, включая гармонию, ритм, мелодию и тембр, часто обусловленная структурной информацией, такой как ноты или аккорды.
Направление без классификатора (Classifier-Free Guidance)
Техника вывода, которая усиливает соответствие модели диффузии условию (текст, мелодия и т.д.) путем интерполяции между условным и безусловным предсказанием, улучшая тем самым точность и контроль генерации.
Временной шаг диффузии (Diffusion Timestep)
Дискретная переменная, представляющая стадию процесса добавления или удаления шума, от 0 (чистый сигнал) до T (чистый шум), которая обусловливает нейронную сеть для предсказания шума, который нужно удалить на каждой итерации.
Латентное аудиопространство
Сжатое и абстрактное представление аудиоданных, полученное через энкодер, в котором применяется процесс диффузии для снижения вычислительной сложности при сохранении семантической информации.
Инпейнтинг аудио
Задача манипуляции, заключающаяся в регенерации или заполнении отсутствующего или поврежденного участка аудиосигнала с использованием диффузионной модели, на основе окружающего аудиоконтекста.
Аудио супер-разрешение
Процесс, при котором диффузионная модель повышает качество или частоту дискретизации аудиосигнала низкого разрешения, добавляя правдоподобные и согласованные высокочастотные детали.
Непрерывное аудио кодирование
Метод представления, который преобразует дискретную форму волны в набор непрерывных векторов в латентном пространстве, служащий основой для процесса диффузии в генеративных аудиомоделях.
Текстово-аудиальное кондиционирование
Техника, при которой диффузионная аудиомодель направляется текстовым описанием для генерации соответствующего звука, требующая многомодальной архитектуры, способной выравнивать текстовые и слуховые модальности.
Скоре-матчинг с шумом (Denoising Score Matching)
Фундаментальная цель обучения для диффузионных моделей, которая учит нейронную сеть предсказывать градиент (скор) распределения данных относительно зашумленного входа, позволяя таким образом итеративное удаление шума.
Стохастическая выборка
Метод вывода для диффузионных моделей, где удаление шума на каждом шаге включает случайную компоненту, способствующую разнообразию генераций, но могущую вносить артефакты.
Детерминированная выборка (DDIM)
Стратегия вывода, позволяющая ускорить процесс генерации за счет выполнения меньшего количества шагов удаления шума детерминированным образом, уменьшая стохастичность для более воспроизводимых результатов.
Латентная диффузионная модель (Latent Diffusion Model)
Вариант диффузионной модели, которая работает в латентном пространстве меньшей размерности, изученном автоэнкодером, чтобы сделать обучение и вывод более эффективными для данных высокого разрешения, таких как аудио.
Сверточные Трансформеры для Аудио
Гибридная архитектура, сочетающая сверточные слои для захвата локальных паттернов и механизмы внимания для долгосрочных зависимостей, часто используемая в качестве основы в U-Nets для аудио диффузии.
Пайплайн Генерации Аудио
Полная последовательность операций, от кодирования условия (текст, мелодия) до диффузии в латентном пространстве и, наконец, декодирования через вокодер, для получения конечного аудиосигнала.
Перемасштабирование Шума (Noise Rescaling)
Техника корректировки дисперсии шума, добавляемого на каждом этапе процесса диффузии, используемая для стабилизации обучения и улучшения качества генерируемых сэмплов в аудио моделях.