Atención Dispersa
BigBird
Modelo que implementa la atención dispersa a través de tres patrones: atención local, global y aleatoria, permitiendo el procesamiento de secuencias de hasta 4096 tokens con preservación teórica de las propiedades universales.
← Volver