🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

音频Transformer

适用于音频信号处理的Transformer架构,在音频数据的时间或频率表示上使用注意力机制。

📖
个术语

频谱Transformer

直接在频谱图上操作的Transformer变体,将频谱图分割成补丁并将其作为嵌入序列进行处理用于音频分类。

📖
个术语

Wav2Vec 2.0

用于语音表示的自监督学习模型,使用带量化掩码的Transformer架构处理原始波形。

📖
个术语

Whisper

用于语音识别和语音转文本翻译的鲁棒Transformer模型,在68万小时带有转录标注的音频数据上进行弱监督训练。

📖
个术语

AudioLM

类语言模型的音频生成模型,使用分层Transformer在声学和语义离散表示上生成音频。

📖
个术语

Encodec

基于Transformer的神经编解码器,使用残差量化实现高保真音频压缩和重建。

📖
个术语

VALL-E

神经编解码器语言模型,使用Transformer根据3秒语音提示生成高质量语音。

📖
个术语

Wav2Vec-U

无监督ASR方法,使用预训练的wav2vec 2.0模型无需转录,利用隐式音素对齐。

📖
个术语

MusicGen

用于音乐生成的条件Transformer模型,使用音频分词器,可通过文本描述或旋律进行控制。

📖
个术语

MERT

音乐包络表示Transformer,用于音乐理解的自动监督预训练模型,使用多尺度表示。

📖
个术语

Spec2Vec

将频谱图转换为向量嵌入的Transformer架构,用于音频分类和检索任务。

🔍

未找到结果