BERT et ses Variantes
Funnel Transformers
Architecture hiérarchique réduisant progressivement la longueur des séquences à travers les couches tout en préservant l'information importante. Économise significativement la mémoire computationnelle pour les longues séquences.
← पीछे