人工智能完整詞典
将序列分割成块,并以顺序或分层方式计算块内和块间注意力的方法。允许通过在块之间而非单个token之间交换信息来处理非常长的序列。
稀疏注意力模式,其中token之间的连接遵循预定的固定模式,如对角带状或锯齿状模式。简化实现并确保可预测的复杂度,同时捕获某些空间结构。
稀疏注意力的变体,其中token以固定间隔(步长)查询其他token,允许捕获不同时间或空间尺度上的依赖关系。以可控的复杂度有效结合局部和全局信息。