人工智能完整詞典
Transformer模型的基本结构,结合了处理和理解输入序列的编码器,以及以自回归方式生成输出序列的解码器。
由多个相同的编码器层堆叠而成,每一层都结合了多头注意力和前馈网络,逐步将输入表示转化为更丰富的抽象。
由解码器层堆叠而成,逐个token地生成输出序列,同时集成了掩码自注意力和交叉注意力,以建模时间依赖关系和输入-输出关系。
基本的计算单元,结合了多头注意力机制、残差连接、层归一化和前馈网络,构成了编码器和解码器的基础。