Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Pile d'Encodeurs
Empilement de couches identiques transformant la séquence d'entrée en représentations riches et contextuelles, chaque couche contenant attention et feed-forward.
Pile de Décodeurs
Architecture composée de couches générant la séquence de sortie, utilisant l'attention masquée pour prévenir les fuites d'informations futures et l'attention croisée avec l'encodeur.
Attention Encodeur-Décodeur
Mécanisme permettant au décodeur d'accéder et de se concentrer sur les représentations de l'encodeur pour générer chaque token de sortie de manière informée.
Normalisation de Couche
Technique de stabilisation de l'entraînement normalisant les activations pour chaque position, appliquée avant ou après les sous-couches dans l'architecture transformer.
Auto-Attention Masquée
Variante de l'auto-attention utilisée dans les décodeurs où les positions futures sont masquées pour prévenir l'utilisation d'informations non disponibles lors de la génération.
Attention Produit Scalaire Mis à l'Échelle
Calcul d'attention normalisant les produits scalaires par la racine carrée de la dimension des clés pour stabiliser les gradients lors de l'entraînement.
Têtes d'Attention
Sous-espaces indépendants dans l'attention multi-têtes, chacun apprenant à se concentrer sur différents types de relations et motifs dans les données.
Embedding de Token
Représentation vectorielle dense et continue de chaque token d'entrée, point de départ de l'architecture transformer avant l'ajout d'informations positionnelles.