Otimização de Transformer
Dynamic Token Pruning
Técnica adaptativa que remove seletivamente os tokens menos relevantes durante o passe forward para reduzir a complexidade computacional da atenção.
← Voltar