Optimización de Transformers
Flash Attention
Implementación algorítmica exacta de atención optimizada para GPUs modernas, eliminando lecturas/escrituras de memoria redundantes para acelerar el entrenamiento.
← Volver