AI 词汇表
人工智能完整词典
Position-wise Feed-Forward Network
在 Transformer 架构中独立应用于序列每个位置的神经网络,在注意力机制之后执行非线性变换。
GELU Activation
高斯误差线性单元激活函数,用于 Transformer 的 FFN 中,结合了 dropout 和 ReLU 的特性以实现随机正则化。
Two-layer MLP
Transformer 中 FFN 的标准多层架构,由两个线性变换组成,中间夹着一个非线性激活函数。
Hidden Dimension Expansion
在 FFN 的第一层中增加维度(通常是模型维度的4倍),然后在第二层中降维,从而提供更强的表达能力。
Feed-Forward Dimension
Transformer 中 FFN 的中间维度,通常是模型维度的四倍,以增强表示能力。
Position-independent Processing
FFN 的基本特征,即对所有位置应用相同的权重,这与位置相关的注意力机制不同。
Swish Activation
FFN 中 GELU 的替代激活函数,定义为 x * sigmoid(βx),提供可比的性能和更好的可微性。
GLU Variants
门控线性单元及其变体(GeGLU、SwiGLU),用作标准 FFN 的替代方案,引入门控机制以选择性控制信息流。
前馈子层
Transformer块中的独立组件,包含FFN,包括残差连接和层归一化以稳定训练。
线性变换矩阵
FFN的权重W1和W2,分别转换到扩展维度并回到模型的原始维度。
FFN丢弃
应用于Transformer FFN中激活后的正则化机制,随机禁用神经元以防止过拟合。
内部层归一化
在Transformer架构中FFN之前或之后应用层归一化,有pre-norm和post-norm两种变体,影响训练稳定性。
专家混合FFN
标准FFN的扩展,使用多个由路由网络选择性激活的FFN专家,允许在不按比例增加计算的情况下增加容量。
基于ReLU的FFN
使用ReLU作为激活函数的FFN变体,更简单但在大多数Transformer应用中性能不如GELU。
前馈投影
FFN中的线性投影操作,将表示在不同维度空间之间转换以捕获复杂关系。
自适应FFN
高级FFN架构,根据输入上下文动态调整其参数,提高特定任务的灵活性。