人工智能完整词典
一种注意力机制,并行执行多个注意力函数以捕获令牌之间语义关系的不同方面。允许模型同时关注输入序列的不同位置。
最终的线性层,将所有注意力头的输出组合成一个统一的矩阵。将注意力头的串联转换为与后续层兼容的维度。