Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Mécanisme d'Attention
Permet au modèle de pondérer l'importance de différentes parties de l'entrée lors du traitement.
Self-Attention
Mécanisme où chaque élément de la séquence s'attentionne sur tous les autres éléments de la même séquence.
Multi-Head Attention
Extension du self-attention utilisant plusieurs têtes d'attention en parallèle pour capturer différents types de relations.
Positional Encoding
Technique pour intégrer des informations de position dans les embeddings sans utiliser de RNN.
Encoder-Decoder Architecture
Structure fondamentale des Transformers avec encodeur pour comprendre et décodeur pour générer.
Scaled Dot-Product Attention
Forme mathématique de base du calcul d'attention dans les Transformers avec mise à l'échelle.
Feed-Forward Networks
Réseaux fully-connected appliqués après chaque couche d'attention dans les Transformers.
Layer Normalization
Technique de normalisation appliquée dans les Transformers pour stabiliser l'entraînement.
Attention Masks
Mécanisme pour contrôler quels tokens peuvent s'attentionner sur d'autres tokens.
Vision Transformers (ViT)
Application de l'architecture Transformer au traitement d'images en divisant les images en patches.
BERT Architecture
Transformer encoder-only pré-entraîné avec objectives de masked language modeling.
GPT Architecture
Transformer decoder-only optimisé pour la génération de texte de manière auto-régressive.
Cross-Attention
Mécanisme d'attention entre deux séquences différentes dans les encodeurs-décodeurs.
Sparse Attention
Variante de l'attention réduisant la complexité en ne calculant que des paires sélectives.
Hierarchical Attention
Architecture multi-niveaux appliquant l'attention à différentes échelles de granularité.
Attention Visualization
Techniques pour interpréter et visualiser les poids d'attention des Transformers.
Transformer Optimization
Méthodes spécifiques pour l'entraînement efficace des grands modèles Transformers.
Multi-Modal Transformers
Architecture Transformer étendue pour traiter simultanément plusieurs types de données.
Efficient Transformers
Variantes optimisées des Transformers pour réduire la complexité computationnelle.
Attention Mechanisms Variants
Différentes approches et améliorations du mécanisme d'attention au-delà du dot-product.