Atención dispersa
Atención por bloques
Enfoque que divide la secuencia en bloques y calcula la atención intra-bloques e inter-bloques de manera secuencial o jerárquica. Permite procesar secuencias muy largas intercambiando información entre bloques en lugar de entre tokens individuales.
← Volver