🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Audio Spectrogram Transformer (AST)

Архитектура Transformer, которая напрямую применяет механизмы внимания к спектрограммам аудио, обрабатывая сигнал как 2D изображение для задач классификации.

📖
термины

Conformer

Гибридная архитектура модели для распознавания речи, которая объединяет модули свертки, самовнимания и прямого распространения для захвата как локальных, так и глобальных зависимостей в аудио последовательностях.

📖
термины

Wav2Vec 2.0

Фреймворк самообучения для распознавания речи, предварительно обученный на сырых аудио данных, использующий векторную квантизацию для изучения дискретных представлений разговорного языка.

📖
термины

HuBERT

Hierarchical Hidden-Unit BERT, самообучаемая модель, которая изучает иерархические аудио представления, предсказывая латентные единицы из кластеров акустических характеристик.

📖
термины

Jukebox

Генеративная модель на основе Transformer и VQ-VAE, способная создавать сырую музыку с голосами высокой четкости, обусловливая генерацию на метаданных артиста и жанра.

📖
термины

Music Transformer

Архитектура Transformer с оптимизированным механизмом относительного внимания для моделирования длинных музыкальных последовательностей, способная генерировать музыкальные композиции со структурной согласованностью.

📖
термины

SpecAugment

Техника регуляризации для аудио моделей, применяющая преобразования маскирования на спектрограммах (частота и время) для улучшения устойчивости модели к искажению сигнала.

📖
термины

Self-Attention на Аудио Последовательностях

Применение механизма самовнимания к последовательностям акустических векторов, позволяющее модели динамически взвешивать важность различных частей аудио сигнала для предсказания.

📖
термины

Аудио Токенизация

Процесс дискретизации непрерывного аудиосигнала в последовательность дискретных токенов, часто с использованием VQ-VAE, для обеспечения совместимости с токен-ориентированными архитектурами Transformer.

📖
термины

Перекрестное Внимание Аудио-Текст

Механизм внимания, в котором запросы поступают из одной модальности (например, текст), а ключи/значения - из другой (например, аудио), фундаментальный для моделей распознавания речи и аудио-наррации.

📖
термины

Perceiver IO для Аудио

Архитектура на основе Perceiver IO, которая обрабатывает аудиопоследовательности переменной длины, преобразуя их в фиксированное латентное пространство перед генерацией предсказаний, эффективная для задач классификации и транскрипции.

📖
термины

Squeeze-and-Excitation для Аудио

Блок канального внимания, адаптированный для аудиоданных, который учится динамически перекалибровывать характеристические ответы спектрограммных карт, моделируя взаимозависимости между каналами.

📖
термины

Сверточный Трансформер для Аудио (CTT)

Архитектура, которая интегрирует свертки в блок Transformer для эффективного захвата локальных паттернов в спектрограммах перед применением самовнимания для глобальных зависимостей.

📖
термины

Контрастное Обучение для Аудио (CLAP)

Мультимодальный метод обучения, использующий контрастную потерю для выравнивания аудио и текстовых представлений в общем пространстве, позволяющий проводить zero-shot классификацию аудио.

📖
термины

Каузальная Задержка в Аудио Трансформерах

Архитектурное ограничение, при котором внимание для данного временного шага может быть направлено только на текущие и прошлые временные шаги, необходимое для потоковых моделей и генерации аудио в реальном времени.

📖
термины

2D Позиционное Кодирование для Спектрограмм

Техника позиционного кодирования, которая кодирует пространственную информацию (время и частота) для токенов, извлеченных из спектрограмм, позволяя Transformer понимать 2D-структуру аудиосигнала.

📖
термины

Тонкая настройка на конкретных аудиозадачах

Процесс адаптации предварительно обученного аудио-трансформера на обширной базе данных к целевой задаче, такой как обнаружение звуковых событий или идентификация говорящего, путем заморозки или выборочного переобучения слоев.

📖
термины

Аудио-языковая модель (AudioLM)

Подход, который рассматривает генерацию аудио как задачу языкового моделирования, предсказывая дискретные акустические токены с помощью трансформера, аналогично тому, как языковые модели генерируют текст.

🔍

Результаты не найдены