Otimização de Transformer
Flash Attention
Implementação algorítmica exata da atenção otimizada para GPUs modernas, eliminando leituras/escritas de memória redundantes para acelerar o treinamento.
← Voltar