Architecture Transformer
Dropout Layer
Technique de régularisation qui désactive aléatoirement des neurones pendant l'entraînement pour prévenir le surapprentissage. Appliquée après les couches d'attention et feed-forward dans les Transformers.
← رجوع