Efficient Transformers
Dilated Attention
Extension de sliding window attention utilisant des motifs dilatés pour capturer des dépendances à plus longue portée sans augmenter la complexité. Les trous dans le pattern permettent une expansion exponentielle du champ réceptif.
← 返回