Atención Dispersa
Reformer
Arquitectura que utiliza la sensibilidad a la localidad (LSH) para limitar los cálculos de atención a los pares más similares, con complejidad casi lineal en la longitud de la secuencia.
← Volver