AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
音频Transformer
适用于音频信号处理的Transformer架构,在音频数据的时间或频率表示上使用注意力机制。
个术语
频谱Transformer
直接在频谱图上操作的Transformer变体,将频谱图分割成补丁并将其作为嵌入序列进行处理用于音频分类。
个术语
Wav2Vec 2.0
用于语音表示的自监督学习模型,使用带量化掩码的Transformer架构处理原始波形。
个术语
Whisper
用于语音识别和语音转文本翻译的鲁棒Transformer模型,在68万小时带有转录标注的音频数据上进行弱监督训练。
个术语
AudioLM
类语言模型的音频生成模型,使用分层Transformer在声学和语义离散表示上生成音频。
个术语
Encodec
基于Transformer的神经编解码器,使用残差量化实现高保真音频压缩和重建。
个术语
VALL-E
神经编解码器语言模型,使用Transformer根据3秒语音提示生成高质量语音。
个术语
Wav2Vec-U
无监督ASR方法,使用预训练的wav2vec 2.0模型无需转录,利用隐式音素对齐。
个术语
MusicGen
用于音乐生成的条件Transformer模型,使用音频分词器,可通过文本描述或旋律进行控制。
个术语
MERT
音乐包络表示Transformer,用于音乐理解的自动监督预训练模型,使用多尺度表示。
个术语
Spec2Vec
将频谱图转换为向量嵌入的Transformer架构,用于音频分类和检索任务。
🔍