Attention Multi-Tête
Connexions Résiduelles
Chemins de raccourci dans les Transformers qui ajoutent l'entrée directement à la sortie des sous-couches d'attention, facilitant l'entraînement de réseaux profonds en préservant le gradient.
← Tillbaka