YZ Sözlüğü
Yapay Zekanın tam sözlüğü
Local Attention Pattern
Pattern d'attention restreignant le calcul aux positions voisines dans une fenêtre glissante de taille fixe autour de chaque token.
Global Attention Pattern
Mécanisme où certains tokens prédéfinis ou appris peuvent attirer l'attention de tous les autres tokens de la séquence, préservant les dépendances longues.
Random Attention Pattern
Approche d'attention sparse établissant des connexions aléatoires entre tokens pour améliorer la propagation d'information et réduire le chemin entre tokens éloignés.
Variable Length Attention
Technique adaptative où la taille de la fenêtre d'attention varie selon les tokens ou les couches du réseau pour optimiser l'utilisation computationnelle.
Efficient Transformer
Classe de modèles transformer modifiés pour réduire la complexité quadratique de l'attention, incluant approches approximatives, hiérarchiques et sparse.
Kernelized Attention
Méthode approximant l'attention par des opérations de convolution utilisant des noyaux de feature maps, évitant le calcul explicite de la matrice d'attention.
Sparsemax
Fonction d'activation alternative à softmax produisant des distributions de probabilités sparses avec zéros explicites, idéale pour l'attention sélective.
Entmax
Généralisation paramétrique de sparsemax contrôlant le niveau de sparsité dans les distributions d'attention via un paramètre α régissant l'entropie.