🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Position-wise Feed-Forward Network

在 Transformer 架构中独立应用于序列每个位置的神经网络,在注意力机制之后执行非线性变换。

📖
个术语

GELU Activation

高斯误差线性单元激活函数,用于 Transformer 的 FFN 中,结合了 dropout 和 ReLU 的特性以实现随机正则化。

📖
个术语

Two-layer MLP

Transformer 中 FFN 的标准多层架构,由两个线性变换组成,中间夹着一个非线性激活函数。

📖
个术语

Hidden Dimension Expansion

在 FFN 的第一层中增加维度(通常是模型维度的4倍),然后在第二层中降维,从而提供更强的表达能力。

📖
个术语

Feed-Forward Dimension

Transformer 中 FFN 的中间维度,通常是模型维度的四倍,以增强表示能力。

📖
个术语

Position-independent Processing

FFN 的基本特征,即对所有位置应用相同的权重,这与位置相关的注意力机制不同。

📖
个术语

Swish Activation

FFN 中 GELU 的替代激活函数,定义为 x * sigmoid(βx),提供可比的性能和更好的可微性。

📖
个术语

GLU Variants

门控线性单元及其变体(GeGLU、SwiGLU),用作标准 FFN 的替代方案,引入门控机制以选择性控制信息流。

📖
个术语

前馈子层

Transformer块中的独立组件,包含FFN,包括残差连接和层归一化以稳定训练。

📖
个术语

线性变换矩阵

FFN的权重W1和W2,分别转换到扩展维度并回到模型的原始维度。

📖
个术语

FFN丢弃

应用于Transformer FFN中激活后的正则化机制,随机禁用神经元以防止过拟合。

📖
个术语

内部层归一化

在Transformer架构中FFN之前或之后应用层归一化,有pre-norm和post-norm两种变体,影响训练稳定性。

📖
个术语

专家混合FFN

标准FFN的扩展,使用多个由路由网络选择性激活的FFN专家,允许在不按比例增加计算的情况下增加容量。

📖
个术语

基于ReLU的FFN

使用ReLU作为激活函数的FFN变体,更简单但在大多数Transformer应用中性能不如GELU。

📖
个术语

前馈投影

FFN中的线性投影操作,将表示在不同维度空间之间转换以捕获复杂关系。

📖
个术语

自适应FFN

高级FFN架构,根据输入上下文动态调整其参数,提高特定任务的灵活性。

🔍

未找到结果