🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

门控网络

MoE架构中的神经子网络,负责计算每个专家的激活权重,通常使用softmax函数在专家上生成概率分布。

📖
个术语

专家

MoE架构中的独立子模型,通常是神经网络,被训练为专门处理输入数据分布中的特定子空间。

📖
个术语

Top-k门控

一种门控策略,其中只有激活权重最高的k个专家被激活以处理给定输入,从而在保持模型性能的同时降低计算成本。

📖
个术语

路由机制

确定token或输入示例如何在MoE模型中分配给不同专家的算法过程,直接影响效率和负载均衡。

📖
个术语

辅助损失

添加到MoE模型整体损失函数中的正则化项,用于鼓励专家之间的流量均衡分布,避免小部分专家占据主导地位。

📖
个术语

超容量

MoE模型中的一种现象,其中激活专家的总容量超过标准密集模型的容量,允许有效扩展参数数量而不会按比例增加计算成本。

📖
个术语

深度混合

MoE架构的一种变体,其中路由不是在不同专家之间进行,而是在同一transformer网络的不同深度之间进行,选择性激活层。

📖
个术语

稀疏MoE

专家混合的一种实现,其中每个token只激活一部分专家,这允许大幅增加模型参数数量,同时保持每个token的推理成本恒定。

📖
个术语

密集MoE(Dense MoE)

MoE架构的变体,其中所有专家都通过门控网络加权贡献到最终输出,与只激活子集的稀疏版本不同。

📖
个术语

负载均衡(Load Balancing)

MoE模型训练中的关键问题,旨在确保每个专家接收大致相等的训练数据量,以避免利用不足或过度专业化。

📖
个术语

适配器混合(Mixture of Adapters)

将MoE原理应用于适配器,这些是插入预训练基础模型中的小型参数化模块,其中门控网络选择并组合最相关的适配器。

📖
个术语

条件计算(Conditional Computation)

MoE模型的基本原理,其中计算(专家激活)由输入条件决定,允许动态有效地利用计算资源。

📖
个术语

门控噪声(Gating Noise)

正则化技术,在应用softmax函数前向门控网络的logits添加随机噪声(如高斯噪声),以鼓励探索并提高路由的鲁棒性。

📖
个术语

Softmax混合(Mixture of Softmaxes)

MoE的特化版本,其中专家是不同的softmax层,用于建模复杂的多模态分布,特别是在自然语言处理中。

📖
个术语

路由开销(Routing Cost)

与评估门控网络和将数据路由到选定专家相关的计算开销,是设计高效MoE模型的关键因素。

📖
个术语

头部混合(Mixture of Heads)

将MoE范式应用于transformer的多头注意力机制,其中门控网络选择要为给定输入激活的注意力头部子集。

🔍

未找到结果