音频Transformer

📖

个术语

适用于音频信号处理的Transformer架构，在音频数据的时间或频率表示上使用注意力机制。

📖

个术语

频谱Transformer

直接在频谱图上操作的Transformer变体，将频谱图分割成补丁并将其作为嵌入序列进行处理用于音频分类。

📖

个术语

Wav2Vec 2.0

用于语音表示的自监督学习模型，使用带量化掩码的Transformer架构处理原始波形。

📖

个术语

Whisper

用于语音识别和语音转文本翻译的鲁棒Transformer模型，在68万小时带有转录标注的音频数据上进行弱监督训练。

📖

个术语

AudioLM

类语言模型的音频生成模型，使用分层Transformer在声学和语义离散表示上生成音频。

📖

个术语

Encodec

基于Transformer的神经编解码器，使用残差量化实现高保真音频压缩和重建。

📖

个术语

VALL-E

神经编解码器语言模型，使用Transformer根据3秒语音提示生成高质量语音。

📖

个术语

Wav2Vec-U

无监督ASR方法，使用预训练的wav2vec 2.0模型无需转录，利用隐式音素对齐。

📖

个术语

MusicGen

用于音乐生成的条件Transformer模型，使用音频分词器，可通过文本描述或旋律进行控制。

📖

个术语

MERT

音乐包络表示Transformer，用于音乐理解的自动监督预训练模型，使用多尺度表示。

📖

个术语

Spec2Vec

将频谱图转换为向量嵌入的Transformer架构，用于音频分类和检索任务。

AI 词汇表