🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

门控网络

MoE架构中的神经子网络,负责计算每个专家的激活权重,通常使用softmax函数在专家上生成概率分布。

📖
術語

专家

MoE架构中的独立子模型,通常是神经网络,被训练为专门处理输入数据分布中的特定子空间。

📖
術語

Top-k门控

一种门控策略,其中只有激活权重最高的k个专家被激活以处理给定输入,从而在保持模型性能的同时降低计算成本。

📖
術語

路由机制

确定token或输入示例如何在MoE模型中分配给不同专家的算法过程,直接影响效率和负载均衡。

📖
術語

辅助损失

添加到MoE模型整体损失函数中的正则化项,用于鼓励专家之间的流量均衡分布,避免小部分专家占据主导地位。

📖
術語

超容量

MoE模型中的一种现象,其中激活专家的总容量超过标准密集模型的容量,允许有效扩展参数数量而不会按比例增加计算成本。

📖
術語

深度混合

MoE架构的一种变体,其中路由不是在不同专家之间进行,而是在同一transformer网络的不同深度之间进行,选择性激活层。

📖
術語

稀疏MoE

专家混合的一种实现,其中每个token只激活一部分专家,这允许大幅增加模型参数数量,同时保持每个token的推理成本恒定。

📖
術語

密集MoE(Dense MoE)

MoE架构的变体,其中所有专家都通过门控网络加权贡献到最终输出,与只激活子集的稀疏版本不同。

📖
術語

负载均衡(Load Balancing)

MoE模型训练中的关键问题,旨在确保每个专家接收大致相等的训练数据量,以避免利用不足或过度专业化。

📖
術語

适配器混合(Mixture of Adapters)

将MoE原理应用于适配器,这些是插入预训练基础模型中的小型参数化模块,其中门控网络选择并组合最相关的适配器。

📖
術語

条件计算(Conditional Computation)

MoE模型的基本原理,其中计算(专家激活)由输入条件决定,允许动态有效地利用计算资源。

📖
術語

门控噪声(Gating Noise)

正则化技术,在应用softmax函数前向门控网络的logits添加随机噪声(如高斯噪声),以鼓励探索并提高路由的鲁棒性。

📖
術語

Softmax混合(Mixture of Softmaxes)

MoE的特化版本,其中专家是不同的softmax层,用于建模复杂的多模态分布,特别是在自然语言处理中。

📖
術語

路由开销(Routing Cost)

与评估门控网络和将数据路由到选定专家相关的计算开销,是设计高效MoE模型的关键因素。

📖
術語

头部混合(Mixture of Heads)

将MoE范式应用于transformer的多头注意力机制,其中门控网络选择要为给定输入激活的注意力头部子集。

🔍

搵唔到結果