稀疏注意力 - AI 术语表

📖

个术语

Longformer

一种Transformer架构，它结合了滑动窗口局部注意力和全局注意力，以线性复杂度高效处理超长序列。

📖

个术语

BigBird

一种通过三种模式实现稀疏注意力的模型：局部、全局和随机注意力，能够处理长达4096个token的序列，并在理论上保留了通用属性。

📖

个术语

Sliding Window Attention

一种技术，其中每个token只关注滑动窗口中固定数量的邻居，将复杂度降低至O(n*w)，其中w是窗口大小。

📖

个术语

Dilated Sliding Window

滑动窗口注意力的一种变体，它使用跳跃（扩张）来增加感受野，而不会增加计算复杂度。

📖

个术语

Global Attention

一种机制，其中某些预定义的token（如[CLS] token）可以受到所有其他token的关注，从而允许信息在整个序列中传播。

📖

个术语

Random Attention

一种方法，其中每个token随机关注一个远程token子集，以较低的计算开销保持长距离连接。

📖

个术语

Pattern-based Attention

一种策略，应用预定义的稀疏注意力模式（如固定或学习的模式）来决定计算哪些查询-键对。

📖

个术语

Linear Complexity Attention

一类注意力方法，将算法复杂度从O(n²)降低到O(n)，从而能够扩展到非常长的序列。

📖

个术语

基于核的注意力

使用核函数近似softmax注意力的方法，通过FAVOR+（通过正交随机特征的快速注意力）等技术实现线性复杂度计算。

📖

个术语

低秩近似

通过低秩分解近似注意力矩阵的技术，显著减少内存和计算需求。

📖

个术语

基于聚类的注意力

首先将tokens分组到相似簇中，然后在簇级别应用注意力的方法，减少所需计算量。

📖

个术语

路由注意力

学习使用基于内容的路由函数将查询路由到最相关键的机制，避免不必要的计算。

📖

个术语

Reformer

使用局部敏感性哈希(LSH)将注意力计算限制在最相似对的架构，具有序列长度的准线性复杂度。

📖

个术语

Performer

基于FAVOR+注意力的模型，通过正随机正交特征有效近似softmax注意力，实现线性复杂度。

📖

个术语

Linformer

将键值矩阵投影到低维空间的架构，将复杂度从O(n²)转换为O(n*k)，其中k << n。

📖

个术语

路由Transformer

使用基于k-means的路由对tokens进行分组并有选择地应用注意力的模型，优化长距离依赖的计算。

📖

个术语

Sinkhorn排序算法

使用Sinkhorn迭代将注意力转换为可微排列的算法，应用于稀疏注意力架构中。

📖

个术语

高效注意力机制

包含所有注意力变体的范式，旨在降低计算复杂性同时保持Transformer的建模能力。

AI 词汇表