专家混合模型 - AI 术语表

📖

个术语

门控网络

MoE架构中的神经子网络，负责计算每个专家的激活权重，通常使用softmax函数在专家上生成概率分布。

📖

个术语

专家

MoE架构中的独立子模型，通常是神经网络，被训练为专门处理输入数据分布中的特定子空间。

📖

个术语

Top-k门控

一种门控策略，其中只有激活权重最高的k个专家被激活以处理给定输入，从而在保持模型性能的同时降低计算成本。

📖

个术语

路由机制

确定token或输入示例如何在MoE模型中分配给不同专家的算法过程，直接影响效率和负载均衡。

📖

个术语

辅助损失

添加到MoE模型整体损失函数中的正则化项，用于鼓励专家之间的流量均衡分布，避免小部分专家占据主导地位。

📖

个术语

超容量

MoE模型中的一种现象，其中激活专家的总容量超过标准密集模型的容量，允许有效扩展参数数量而不会按比例增加计算成本。

📖

个术语

深度混合

MoE架构的一种变体，其中路由不是在不同专家之间进行，而是在同一transformer网络的不同深度之间进行，选择性激活层。

📖

个术语

稀疏MoE

专家混合的一种实现，其中每个token只激活一部分专家，这允许大幅增加模型参数数量，同时保持每个token的推理成本恒定。

📖

个术语

密集MoE（Dense MoE）

MoE架构的变体，其中所有专家都通过门控网络加权贡献到最终输出，与只激活子集的稀疏版本不同。

📖

个术语

负载均衡（Load Balancing）

MoE模型训练中的关键问题，旨在确保每个专家接收大致相等的训练数据量，以避免利用不足或过度专业化。

📖

个术语

适配器混合（Mixture of Adapters）

将MoE原理应用于适配器，这些是插入预训练基础模型中的小型参数化模块，其中门控网络选择并组合最相关的适配器。

📖

个术语

条件计算（Conditional Computation）

MoE模型的基本原理，其中计算（专家激活）由输入条件决定，允许动态有效地利用计算资源。

📖

个术语

门控噪声（Gating Noise）

正则化技术，在应用softmax函数前向门控网络的logits添加随机噪声（如高斯噪声），以鼓励探索并提高路由的鲁棒性。

📖

个术语

Softmax混合（Mixture of Softmaxes）

MoE的特化版本，其中专家是不同的softmax层，用于建模复杂的多模态分布，特别是在自然语言处理中。

📖

个术语

路由开销（Routing Cost）

与评估门控网络和将数据路由到选定专家相关的计算开销，是设计高效MoE模型的关键因素。

📖

个术语

头部混合（Mixture of Heads）

将MoE范式应用于transformer的多头注意力机制，其中门控网络选择要为给定输入激活的注意力头部子集。

AI 词汇表