Atenção Esparsa
BigBird
Modelo que implementa atenção esparsa através de três padrões: atenção local, global e aleatória, permitindo o processamento de sequências de até 4096 tokens com preservação teórica das propriedades universais.
← Voltar