Трансформеры для аудио

📖

термины

Audio Spectrogram Transformer (AST)

Архитектура Transformer, которая напрямую применяет механизмы внимания к спектрограммам аудио, обрабатывая сигнал как 2D изображение для задач классификации.

📖

термины

Conformer

Гибридная архитектура модели для распознавания речи, которая объединяет модули свертки, самовнимания и прямого распространения для захвата как локальных, так и глобальных зависимостей в аудио последовательностях.

📖

термины

Wav2Vec 2.0

Фреймворк самообучения для распознавания речи, предварительно обученный на сырых аудио данных, использующий векторную квантизацию для изучения дискретных представлений разговорного языка.

📖

термины

HuBERT

Hierarchical Hidden-Unit BERT, самообучаемая модель, которая изучает иерархические аудио представления, предсказывая латентные единицы из кластеров акустических характеристик.

📖

термины

Jukebox

Генеративная модель на основе Transformer и VQ-VAE, способная создавать сырую музыку с голосами высокой четкости, обусловливая генерацию на метаданных артиста и жанра.

📖

термины

Music Transformer

Архитектура Transformer с оптимизированным механизмом относительного внимания для моделирования длинных музыкальных последовательностей, способная генерировать музыкальные композиции со структурной согласованностью.

📖

термины

SpecAugment

Техника регуляризации для аудио моделей, применяющая преобразования маскирования на спектрограммах (частота и время) для улучшения устойчивости модели к искажению сигнала.

📖

термины

Self-Attention на Аудио Последовательностях

Применение механизма самовнимания к последовательностям акустических векторов, позволяющее модели динамически взвешивать важность различных частей аудио сигнала для предсказания.

📖

термины

Аудио Токенизация

Процесс дискретизации непрерывного аудиосигнала в последовательность дискретных токенов, часто с использованием VQ-VAE, для обеспечения совместимости с токен-ориентированными архитектурами Transformer.

📖

термины

Перекрестное Внимание Аудио-Текст

Механизм внимания, в котором запросы поступают из одной модальности (например, текст), а ключи/значения - из другой (например, аудио), фундаментальный для моделей распознавания речи и аудио-наррации.

📖

термины

Perceiver IO для Аудио

Архитектура на основе Perceiver IO, которая обрабатывает аудиопоследовательности переменной длины, преобразуя их в фиксированное латентное пространство перед генерацией предсказаний, эффективная для задач классификации и транскрипции.

📖

термины

Squeeze-and-Excitation для Аудио

Блок канального внимания, адаптированный для аудиоданных, который учится динамически перекалибровывать характеристические ответы спектрограммных карт, моделируя взаимозависимости между каналами.

📖

термины

Сверточный Трансформер для Аудио (CTT)

Архитектура, которая интегрирует свертки в блок Transformer для эффективного захвата локальных паттернов в спектрограммах перед применением самовнимания для глобальных зависимостей.

📖

термины

Контрастное Обучение для Аудио (CLAP)

Мультимодальный метод обучения, использующий контрастную потерю для выравнивания аудио и текстовых представлений в общем пространстве, позволяющий проводить zero-shot классификацию аудио.

📖

термины

Каузальная Задержка в Аудио Трансформерах

Архитектурное ограничение, при котором внимание для данного временного шага может быть направлено только на текущие и прошлые временные шаги, необходимое для потоковых моделей и генерации аудио в реальном времени.

📖

термины

2D Позиционное Кодирование для Спектрограмм

Техника позиционного кодирования, которая кодирует пространственную информацию (время и частота) для токенов, извлеченных из спектрограмм, позволяя Transformer понимать 2D-структуру аудиосигнала.

📖

термины

Тонкая настройка на конкретных аудиозадачах

Процесс адаптации предварительно обученного аудио-трансформера на обширной базе данных к целевой задаче, такой как обнаружение звуковых событий или идентификация говорящего, путем заморозки или выборочного переобучения слоев.

📖

термины

Аудио-языковая модель (AudioLM)

Подход, который рассматривает генерацию аудио как задачу языкового моделирования, предсказывая дискретные акустические токены с помощью трансформера, аналогично тому, как языковые модели генерируют текст.

Глоссарий ИИ

Audio Spectrogram Transformer (AST)

Conformer

Wav2Vec 2.0

HuBERT

Jukebox

Music Transformer

SpecAugment

Self-Attention на Аудио Последовательностях

Аудио Токенизация

Перекрестное Внимание Аудио-Текст

Perceiver IO для Аудио

Squeeze-and-Excitation для Аудио

Сверточный Трансформер для Аудио (CTT)

Контрастное Обучение для Аудио (CLAP)

Каузальная Задержка в Аудио Трансформерах

2D Позиционное Кодирование для Спектрограмм

Тонкая настройка на конкретных аудиозадачах

Аудио-языковая модель (AudioLM)

Результаты не найдены