人工智能完整詞典
一种位置编码技术,通过对嵌入向量施加复数旋转来反映相对位置。在保持绝对不变性的同时,高效编码位置关系。
一种位置编码方法,根据token之间的距离向注意力分数添加线性偏置。无需重新训练即可更好地外推到更长的序列。
可学习的权重矩阵Wq、Wk、Wv和Wo,将嵌入向量转换为查询、键、值,并融合多头注意力输出。这些线性投影是注意力机制的主要参数。