قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Attention Masquée
Variante de l'auto-attention utilisée dans le décodeur pour empêcher chaque position de s'attarder sur les positions suivantes, garantissant une génération auto-régressive et la prévention des fuites d'information.
Encodeur-Décodeur Bidirectionnel
Architecture où l'encodeur traite la séquence d'entrée dans les deux directions (contexte gauche et droit) pour créer une représentation complète, tandis que le décodeur génère la sortie de manière auto-régressive.
Embedding de Token
Représentation vectorielle dense de chaque token d'entrée, apprise pendant l'entraînement, qui capture des informations sémantiques et syntaxiques et sert de point de départ pour les couches d'attention.
Taux d'Apprentissage Cosinus
Stratégie de planification du taux d'apprentissage qui décroît selon une fonction cosinus, avec une phase d'échauffement initiale, montrant de meilleures performances de convergence pour les modèles Transformer.
Mécanisme de Clé-Valeur-Requête
Abstraction fondamentale du mécanisme d'attention où chaque token est projeté en trois vecteurs : la requête (ce que je cherche), la clé (ce que j'ai) et la valeur (ce que je retourne), pour calculer les poids d'attention.