Глоссарий ИИ
Полный словарь искусственного интеллекта
Audio Spectrogram Transformer (AST)
Архитектура Transformer, которая напрямую применяет механизмы внимания к спектрограммам аудио, обрабатывая сигнал как 2D изображение для задач классификации.
Conformer
Гибридная архитектура модели для распознавания речи, которая объединяет модули свертки, самовнимания и прямого распространения для захвата как локальных, так и глобальных зависимостей в аудио последовательностях.
Wav2Vec 2.0
Фреймворк самообучения для распознавания речи, предварительно обученный на сырых аудио данных, использующий векторную квантизацию для изучения дискретных представлений разговорного языка.
HuBERT
Hierarchical Hidden-Unit BERT, самообучаемая модель, которая изучает иерархические аудио представления, предсказывая латентные единицы из кластеров акустических характеристик.
Jukebox
Генеративная модель на основе Transformer и VQ-VAE, способная создавать сырую музыку с голосами высокой четкости, обусловливая генерацию на метаданных артиста и жанра.
Music Transformer
Архитектура Transformer с оптимизированным механизмом относительного внимания для моделирования длинных музыкальных последовательностей, способная генерировать музыкальные композиции со структурной согласованностью.
SpecAugment
Техника регуляризации для аудио моделей, применяющая преобразования маскирования на спектрограммах (частота и время) для улучшения устойчивости модели к искажению сигнала.
Self-Attention на Аудио Последовательностях
Применение механизма самовнимания к последовательностям акустических векторов, позволяющее модели динамически взвешивать важность различных частей аудио сигнала для предсказания.
Аудио Токенизация
Процесс дискретизации непрерывного аудиосигнала в последовательность дискретных токенов, часто с использованием VQ-VAE, для обеспечения совместимости с токен-ориентированными архитектурами Transformer.
Перекрестное Внимание Аудио-Текст
Механизм внимания, в котором запросы поступают из одной модальности (например, текст), а ключи/значения - из другой (например, аудио), фундаментальный для моделей распознавания речи и аудио-наррации.
Perceiver IO для Аудио
Архитектура на основе Perceiver IO, которая обрабатывает аудиопоследовательности переменной длины, преобразуя их в фиксированное латентное пространство перед генерацией предсказаний, эффективная для задач классификации и транскрипции.
Squeeze-and-Excitation для Аудио
Блок канального внимания, адаптированный для аудиоданных, который учится динамически перекалибровывать характеристические ответы спектрограммных карт, моделируя взаимозависимости между каналами.
Сверточный Трансформер для Аудио (CTT)
Архитектура, которая интегрирует свертки в блок Transformer для эффективного захвата локальных паттернов в спектрограммах перед применением самовнимания для глобальных зависимостей.
Контрастное Обучение для Аудио (CLAP)
Мультимодальный метод обучения, использующий контрастную потерю для выравнивания аудио и текстовых представлений в общем пространстве, позволяющий проводить zero-shot классификацию аудио.
Каузальная Задержка в Аудио Трансформерах
Архитектурное ограничение, при котором внимание для данного временного шага может быть направлено только на текущие и прошлые временные шаги, необходимое для потоковых моделей и генерации аудио в реальном времени.
2D Позиционное Кодирование для Спектрограмм
Техника позиционного кодирования, которая кодирует пространственную информацию (время и частота) для токенов, извлеченных из спектрограмм, позволяя Transformer понимать 2D-структуру аудиосигнала.
Тонкая настройка на конкретных аудиозадачах
Процесс адаптации предварительно обученного аудио-трансформера на обширной базе данных к целевой задаче, такой как обнаружение звуковых событий или идентификация говорящего, путем заморозки или выборочного переобучения слоев.
Аудио-языковая модель (AudioLM)
Подход, который рассматривает генерацию аудио как задачу языкового моделирования, предсказывая дискретные акустические токены с помощью трансформера, аналогично тому, как языковые модели генерируют текст.