Atenção Esparsa
Atenção por Blocos
Abordagem que divide a sequência em blocos e calcula a atenção intra-bloco e inter-blocos de forma sequencial ou hierárquica. Permite processar sequências muito longas trocando informações entre blocos em vez de entre tokens individuais.
← Voltar