AI 詞彙表
人工智能完整詞典
Longformer
一种Transformer架构,它结合了滑动窗口局部注意力和全局注意力,以线性复杂度高效处理超长序列。
BigBird
一种通过三种模式实现稀疏注意力的模型:局部、全局和随机注意力,能够处理长达4096个token的序列,并在理论上保留了通用属性。
Sliding Window Attention
一种技术,其中每个token只关注滑动窗口中固定数量的邻居,将复杂度降低至O(n*w),其中w是窗口大小。
Dilated Sliding Window
滑动窗口注意力的一种变体,它使用跳跃(扩张)来增加感受野,而不会增加计算复杂度。
Global Attention
一种机制,其中某些预定义的token(如[CLS] token)可以受到所有其他token的关注,从而允许信息在整个序列中传播。
Random Attention
一种方法,其中每个token随机关注一个远程token子集,以较低的计算开销保持长距离连接。
Pattern-based Attention
一种策略,应用预定义的稀疏注意力模式(如固定或学习的模式)来决定计算哪些查询-键对。
Linear Complexity Attention
一类注意力方法,将算法复杂度从O(n²)降低到O(n),从而能够扩展到非常长的序列。
基于核的注意力
使用核函数近似softmax注意力的方法,通过FAVOR+(通过正交随机特征的快速注意力)等技术实现线性复杂度计算。
低秩近似
通过低秩分解近似注意力矩阵的技术,显著减少内存和计算需求。
基于聚类的注意力
首先将tokens分组到相似簇中,然后在簇级别应用注意力的方法,减少所需计算量。
路由注意力
学习使用基于内容的路由函数将查询路由到最相关键的机制,避免不必要的计算。
Reformer
使用局部敏感性哈希(LSH)将注意力计算限制在最相似对的架构,具有序列长度的准线性复杂度。
Performer
基于FAVOR+注意力的模型,通过正随机正交特征有效近似softmax注意力,实现线性复杂度。
Linformer
将键值矩阵投影到低维空间的架构,将复杂度从O(n²)转换为O(n*k),其中k << n。
路由Transformer
使用基于k-means的路由对tokens进行分组并有选择地应用注意力的模型,优化长距离依赖的计算。
Sinkhorn排序算法
使用Sinkhorn迭代将注意力转换为可微排列的算法,应用于稀疏注意力架构中。
高效注意力机制
包含所有注意力变体的范式,旨在降低计算复杂性同时保持Transformer的建模能力。