Transformers pour Longues Séquences
Hierarchical Transformers
Architecture multi-échelle combinant des transformeurs locaux pour les segments et un transformeur global pour les représentations de segment. Permet de capturer à la fois les détails fins et les dépendances à longue portée efficacement.
← Geri