AI 词汇表
人工智能完整词典
门控网络
MoE架构中的神经子网络,负责计算每个专家的激活权重,通常使用softmax函数在专家上生成概率分布。
专家
MoE架构中的独立子模型,通常是神经网络,被训练为专门处理输入数据分布中的特定子空间。
Top-k门控
一种门控策略,其中只有激活权重最高的k个专家被激活以处理给定输入,从而在保持模型性能的同时降低计算成本。
路由机制
确定token或输入示例如何在MoE模型中分配给不同专家的算法过程,直接影响效率和负载均衡。
辅助损失
添加到MoE模型整体损失函数中的正则化项,用于鼓励专家之间的流量均衡分布,避免小部分专家占据主导地位。
超容量
MoE模型中的一种现象,其中激活专家的总容量超过标准密集模型的容量,允许有效扩展参数数量而不会按比例增加计算成本。
深度混合
MoE架构的一种变体,其中路由不是在不同专家之间进行,而是在同一transformer网络的不同深度之间进行,选择性激活层。
稀疏MoE
专家混合的一种实现,其中每个token只激活一部分专家,这允许大幅增加模型参数数量,同时保持每个token的推理成本恒定。
密集MoE(Dense MoE)
MoE架构的变体,其中所有专家都通过门控网络加权贡献到最终输出,与只激活子集的稀疏版本不同。
负载均衡(Load Balancing)
MoE模型训练中的关键问题,旨在确保每个专家接收大致相等的训练数据量,以避免利用不足或过度专业化。
适配器混合(Mixture of Adapters)
将MoE原理应用于适配器,这些是插入预训练基础模型中的小型参数化模块,其中门控网络选择并组合最相关的适配器。
条件计算(Conditional Computation)
MoE模型的基本原理,其中计算(专家激活)由输入条件决定,允许动态有效地利用计算资源。
门控噪声(Gating Noise)
正则化技术,在应用softmax函数前向门控网络的logits添加随机噪声(如高斯噪声),以鼓励探索并提高路由的鲁棒性。
Softmax混合(Mixture of Softmaxes)
MoE的特化版本,其中专家是不同的softmax层,用于建模复杂的多模态分布,特别是在自然语言处理中。
路由开销(Routing Cost)
与评估门控网络和将数据路由到选定专家相关的计算开销,是设计高效MoE模型的关键因素。
头部混合(Mixture of Heads)
将MoE范式应用于transformer的多头注意力机制,其中门控网络选择要为给定输入激活的注意力头部子集。