Transformer Optimization
Dynamic Token Pruning
Technique adaptative supprimant sélectivement les tokens moins pertinents pendant le forward pass pour réduire la complexité computationnelle de l'attention.
← Tillbaka