Self-Attention
Normalización Softmax
Función de activación que transforma los puntajes de atención en una distribución de probabilidades, garantizando que la suma de los pesos de atención iguale 1 para cada posición.
← Volver