Transformadores Eficientes
Dilated Attention
Extensión de sliding window attention que utiliza patrones dilatados para capturar dependencias de mayor alcance sin aumentar la complejidad. Los huecos en el patrón permiten una expansión exponencial del campo receptivo.
← Volver