人工智能完整词典
残差归一化层,在注意力机制之后应用,将注意力输出与原始输入(残差连接)结合,然后对求和结果进行归一化。
注意力中的线性投影,对输入嵌入应用线性变换(乘以权重矩阵)以生成查询、键和值向量,使模型能够学习特定于注意力的表示空间。