Encoder-Decoder Architecture
Number of Heads
Paramètre définissant le nombre de têtes parallèles dans le mécanisme d'attention multi-têtes, permettant au modèle de se concentrer sur différentes représentations sous-espace simultanément pour une compréhension plus riche.
← Geri