Attention Sparse - Yapay Zeka Sözlüğü

📖

terimler

Local Attention Pattern

Pattern d'attention restreignant le calcul aux positions voisines dans une fenêtre glissante de taille fixe autour de chaque token.

📖

terimler

Global Attention Pattern

Mécanisme où certains tokens prédéfinis ou appris peuvent attirer l'attention de tous les autres tokens de la séquence, préservant les dépendances longues.

📖

terimler

Random Attention Pattern

Approche d'attention sparse établissant des connexions aléatoires entre tokens pour améliorer la propagation d'information et réduire le chemin entre tokens éloignés.

📖

terimler

Variable Length Attention

Technique adaptative où la taille de la fenêtre d'attention varie selon les tokens ou les couches du réseau pour optimiser l'utilisation computationnelle.

📖

terimler

Efficient Transformer

Classe de modèles transformer modifiés pour réduire la complexité quadratique de l'attention, incluant approches approximatives, hiérarchiques et sparse.

📖

terimler

Kernelized Attention

Méthode approximant l'attention par des opérations de convolution utilisant des noyaux de feature maps, évitant le calcul explicite de la matrice d'attention.

📖

terimler

Sparsemax

Fonction d'activation alternative à softmax produisant des distributions de probabilités sparses avec zéros explicites, idéale pour l'attention sélective.

📖

terimler

Entmax

Généralisation paramétrique de sparsemax contrôlant le niveau de sparsité dans les distributions d'attention via un paramètre α régissant l'entropie.

YZ Sözlüğü

Local Attention Pattern

Global Attention Pattern

Random Attention Pattern

Variable Length Attention

Efficient Transformer

Kernelized Attention

Sparsemax

Entmax

Sonuç bulunamadı