Transformers与注意力架构

📂

个子类别

自注意力机制

一种基础机制，使变换器能够动态计算序列中每个元素相对于其他元素的相对重要性。

2 个术语

📂

个子类别

多头注意力

自注意力的扩展，其中多个注意力头并行操作以捕捉数据中不同类型的关系。

4 个术语

📂

个子类别

位置编码

一种将序列位置信息嵌入到向量表示中的技术，用于弥补Transformer模型中缺乏循环机制的不足。

6 个术语

📂

个子类别

编码器-解码器架构

原始Transformer的基本结构，结合编码器处理输入和解码器生成输出。

8 个术语

📂

个子类别

BERT（双向编码器表示）

基于仅编码器架构的预训练模型家族，具有双向上下文理解能力。

10 个术语

📂

个子类别

GPT（生成式预训练转换器）

专为自回归文本生成优化的仅解码器架构，构成大型语言模型的基础。

5 个术语

📂

个子类别

视觉变换器（ViT）

将变换器架构应用于图像处理，通过将图像分割成小块并作为序列进行处理。

11 个术语

📂

个子类别

稀疏注意力机制

通过限制序列元素之间的连接来降低计算复杂度的注意力变体。

2 个术语

📂

个子类别

交叉注意力

一种注意力机制，其中查询来自一个序列，而键和值来自另一个不同的序列。

2 个术语

📂

个子类别

Transformer Scaling Laws

描述Transformer模型性能如何随模型规模、数据量和计算量变化的经验法则。

18 个术语

📂

个子类别

注意力头分析

研究Transformer中不同注意力头的专门化角色以理解其内部工作机制。

19 个术语

📂

个子类别

分层注意力

一种组织成多个层级结构的注意力架构，用于处理复杂的结构化数据。

9 个术语

AI 词汇表

自注意力机制

多头注意力

位置编码

编码器-解码器架构

BERT（双向编码器表示）

GPT（生成式预训练转换器）

视觉变换器（ViT）

稀疏注意力机制

交叉注意力

Transformer Scaling Laws

注意力头分析

分层注意力

未找到结果