人工智能完整词典
从注意力机制输入投影得到的三元向量组,其中键和查询用于计算注意力权重,值根据这些权重进行聚合。
一种在计算注意力分数时直接融入位置间相对距离的注意力机制,能够更好地泛化到不同长度的序列。