人工智能完整词典
将二维位置分解为各轴的一维编码的位置编码方法。允许在训练期间未见过的序列长度上更好地泛化。
将长序列分割为较小段的策略,这些段可以顺序或并行处理,并有块间通信机制。允许绕过标准transformer架构的内存限制。
多尺度架构,结合用于段的局部transformer和用于段表示的全局transformer。允许同时有效地捕获细粒度细节和长距离依赖关系。