前馈网络 - AI 术语表

📖

个术语

Position-wise Feed-Forward Network

在 Transformer 架构中独立应用于序列每个位置的神经网络，在注意力机制之后执行非线性变换。

📖

个术语

GELU Activation

高斯误差线性单元激活函数，用于 Transformer 的 FFN 中，结合了 dropout 和 ReLU 的特性以实现随机正则化。

📖

个术语

Two-layer MLP

Transformer 中 FFN 的标准多层架构，由两个线性变换组成，中间夹着一个非线性激活函数。

📖

个术语

Hidden Dimension Expansion

在 FFN 的第一层中增加维度（通常是模型维度的4倍），然后在第二层中降维，从而提供更强的表达能力。

📖

个术语

Feed-Forward Dimension

Transformer 中 FFN 的中间维度，通常是模型维度的四倍，以增强表示能力。

📖

个术语

Position-independent Processing

FFN 的基本特征，即对所有位置应用相同的权重，这与位置相关的注意力机制不同。

📖

个术语

Swish Activation

FFN 中 GELU 的替代激活函数，定义为 x * sigmoid(βx)，提供可比的性能和更好的可微性。

📖

个术语

GLU Variants

门控线性单元及其变体（GeGLU、SwiGLU），用作标准 FFN 的替代方案，引入门控机制以选择性控制信息流。

📖

个术语

前馈子层

Transformer块中的独立组件，包含FFN，包括残差连接和层归一化以稳定训练。

📖

个术语

线性变换矩阵

FFN的权重W1和W2，分别转换到扩展维度并回到模型的原始维度。

📖

个术语

FFN丢弃

应用于Transformer FFN中激活后的正则化机制，随机禁用神经元以防止过拟合。

📖

个术语

内部层归一化

在Transformer架构中FFN之前或之后应用层归一化，有pre-norm和post-norm两种变体，影响训练稳定性。

📖

个术语

专家混合FFN

标准FFN的扩展，使用多个由路由网络选择性激活的FFN专家，允许在不按比例增加计算的情况下增加容量。

📖

个术语

基于ReLU的FFN

使用ReLU作为激活函数的FFN变体，更简单但在大多数Transformer应用中性能不如GELU。

📖

个术语

前馈投影

FFN中的线性投影操作，将表示在不同维度空间之间转换以捕获复杂关系。

📖

个术语

自适应FFN

高级FFN架构，根据输入上下文动态调整其参数，提高特定任务的灵活性。

AI 词汇表