Transformers et Architecture Attention

📂

sous-catégories

Mécanisme d'Attention

Permet au modèle de pondérer l'importance de différentes parties de l'entrée lors du traitement.

10 termes

📂

sous-catégories

Self-Attention

Mécanisme où chaque élément de la séquence s'attentionne sur tous les autres éléments de la même séquence.

7 termes

📂

sous-catégories

Multi-Head Attention

Extension du self-attention utilisant plusieurs têtes d'attention en parallèle pour capturer différents types de relations.

8 termes

📂

sous-catégories

Positional Encoding

Technique pour intégrer des informations de position dans les embeddings sans utiliser de RNN.

19 termes

📂

sous-catégories

Encoder-Decoder Architecture

Structure fondamentale des Transformers avec encodeur pour comprendre et décodeur pour générer.

4 termes

📂

sous-catégories

Scaled Dot-Product Attention

Forme mathématique de base du calcul d'attention dans les Transformers avec mise à l'échelle.

5 termes

📂

sous-catégories

Feed-Forward Networks

Réseaux fully-connected appliqués après chaque couche d'attention dans les Transformers.

16 termes

📂

sous-catégories

Layer Normalization

Technique de normalisation appliquée dans les Transformers pour stabiliser l'entraînement.

6 termes

📂

sous-catégories

Attention Masks

Mécanisme pour contrôler quels tokens peuvent s'attentionner sur d'autres tokens.

19 termes

📂

sous-catégories

Vision Transformers (ViT)

Application de l'architecture Transformer au traitement d'images en divisant les images en patches.

14 termes

📂

sous-catégories

BERT Architecture

Transformer encoder-only pré-entraîné avec objectives de masked language modeling.

11 termes

📂

sous-catégories

GPT Architecture

Transformer decoder-only optimisé pour la génération de texte de manière auto-régressive.

8 termes

📂

sous-catégories

Cross-Attention

Mécanisme d'attention entre deux séquences différentes dans les encodeurs-décodeurs.

5 termes

📂

sous-catégories

Sparse Attention

Variante de l'attention réduisant la complexité en ne calculant que des paires sélectives.

18 termes

📂

sous-catégories

Hierarchical Attention

Architecture multi-niveaux appliquant l'attention à différentes échelles de granularité.

12 termes

📂

sous-catégories

Attention Visualization

Techniques pour interpréter et visualiser les poids d'attention des Transformers.

17 termes

📂

sous-catégories

Transformer Optimization

Méthodes spécifiques pour l'entraînement efficace des grands modèles Transformers.

16 termes

📂

sous-catégories

Multi-Modal Transformers

Architecture Transformer étendue pour traiter simultanément plusieurs types de données.

18 termes

📂

sous-catégories

Efficient Transformers

Variantes optimisées des Transformers pour réduire la complexité computationnelle.

9 termes

📂

sous-catégories

Attention Mechanisms Variants

Différentes approches et améliorations du mécanisme d'attention au-delà du dot-product.

9 termes

Glossaire IA

Mécanisme d'Attention

Self-Attention

Multi-Head Attention

Positional Encoding

Encoder-Decoder Architecture

Scaled Dot-Product Attention

Feed-Forward Networks

Layer Normalization

Attention Masks

Vision Transformers (ViT)

BERT Architecture

GPT Architecture

Cross-Attention

Sparse Attention

Hierarchical Attention

Attention Visualization

Transformer Optimization

Multi-Modal Transformers

Efficient Transformers

Attention Mechanisms Variants

Aucun résultat trouvé