Máscaras de atención
Máscara causal triangular
Estructura matricial triangular donde los elementos por encima de la diagonal están enmascarados, creando una dependencia temporal estricta en los modelos transformadores para tareas secuenciales.
← Volver