Atención Dispersa
Longformer
Arquitectura Transformer que utiliza una combinación de atención local por ventana deslizante y atención global para procesar eficientemente secuencias muy largas con complejidad lineal.
← Volver