Encoder-Decoder Architecture
Decoder Stack
Empilement de couches de décodeur qui génèrent la séquence de sortie token par token, intégrant à la fois masked self-attention et cross-attention pour modéliser les dépendances temporelles et les relations entrée-sortie.
← Retour