Multi-Head Attention
Parallel Attention Computation
Processus où les multiples têtes d'attention sont calculées simultanément en parallèle, permettant une capture efficace de différents aspects des relations séquentielles.
← Retour