🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Longformer

一种Transformer架构,它结合了滑动窗口局部注意力和全局注意力,以线性复杂度高效处理超长序列。

📖
个术语

BigBird

一种通过三种模式实现稀疏注意力的模型:局部、全局和随机注意力,能够处理长达4096个token的序列,并在理论上保留了通用属性。

📖
个术语

Sliding Window Attention

一种技术,其中每个token只关注滑动窗口中固定数量的邻居,将复杂度降低至O(n*w),其中w是窗口大小。

📖
个术语

Dilated Sliding Window

滑动窗口注意力的一种变体,它使用跳跃(扩张)来增加感受野,而不会增加计算复杂度。

📖
个术语

Global Attention

一种机制,其中某些预定义的token(如[CLS] token)可以受到所有其他token的关注,从而允许信息在整个序列中传播。

📖
个术语

Random Attention

一种方法,其中每个token随机关注一个远程token子集,以较低的计算开销保持长距离连接。

📖
个术语

Pattern-based Attention

一种策略,应用预定义的稀疏注意力模式(如固定或学习的模式)来决定计算哪些查询-键对。

📖
个术语

Linear Complexity Attention

一类注意力方法,将算法复杂度从O(n²)降低到O(n),从而能够扩展到非常长的序列。

📖
个术语

基于核的注意力

使用核函数近似softmax注意力的方法,通过FAVOR+(通过正交随机特征的快速注意力)等技术实现线性复杂度计算。

📖
个术语

低秩近似

通过低秩分解近似注意力矩阵的技术,显著减少内存和计算需求。

📖
个术语

基于聚类的注意力

首先将tokens分组到相似簇中,然后在簇级别应用注意力的方法,减少所需计算量。

📖
个术语

路由注意力

学习使用基于内容的路由函数将查询路由到最相关键的机制,避免不必要的计算。

📖
个术语

Reformer

使用局部敏感性哈希(LSH)将注意力计算限制在最相似对的架构,具有序列长度的准线性复杂度。

📖
个术语

Performer

基于FAVOR+注意力的模型,通过正随机正交特征有效近似softmax注意力,实现线性复杂度。

📖
个术语

Linformer

将键值矩阵投影到低维空间的架构,将复杂度从O(n²)转换为O(n*k),其中k << n。

📖
个术语

路由Transformer

使用基于k-means的路由对tokens进行分组并有选择地应用注意力的模型,优化长距离依赖的计算。

📖
个术语

Sinkhorn排序算法

使用Sinkhorn迭代将注意力转换为可微排列的算法,应用于稀疏注意力架构中。

📖
个术语

高效注意力机制

包含所有注意力变体的范式,旨在降低计算复杂性同时保持Transformer的建模能力。

🔍

未找到结果