AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
后层归一化 Transformer
原始的 Transformer 架构,其中层归一化应用于自注意力和前馈层之后,需要更精确地调整学习率。
術語
Gamma 和 Beta
层归一化的可学习参数,分别用于缩放和平移归一化后的数值,以保持网络的表示能力。
術語
零中心化
在层归一化中减去激活值均值的过程,使数据以零为中心,从而便于梯度的优化。
術語
单位方差
在层归一化中将激活值标准化为单位方差,确保数值稳定性以及跨层的梯度一致性。
術語
梯度稳定性
层归一化的一种特性,能在反向传播期间保持梯度稳定,避免深层 Transformer 中出现梯度爆炸或梯度消失的问题。
術語
Epsilon 参数
在层归一化的分母中添加的一个小常数,用于避免除以零,并在计算归一化方差时确保数值稳定性。
術語
激活分布
层归一化保持恒定的一层内的激活值分布,有助于 Transformer 网络的收敛和优化。
術語
缩放不变性
层归一化的一种特性,使模型对输入的缩放变化不敏感,从而提高模型对数据变化的鲁棒性。
術語
训练速度
通过层归一化显著加速 Transformer 的训练,从而实现更高的学习率和更快的收敛。
術語
隐藏状态归一化
将层归一化应用于 Transformer 的隐藏状态,以在编码和解码层中保持稳定的激活。
🔍