Transformadores Eficientes
Sparse Transformer
Variante que utiliza patrones de atención dispersos predictivos para reducir las conexiones computacionales mientras captura las dependencias a larga distancia. La arquitectura factoriza la atención en subconjuntos para optimizar el procesamiento.
← Volver