Atenção Linear e Eficiente
FlashAttention
Algoritmo de atenção exato, mas mais rápido em memória e tempo, que usa tiling (blocos) e recomputações para evitar a criação da grande matriz de atenção intermediária na memória da GPU.
← Voltar