एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Self-Attention
Mécanisme fondamental permettant aux transformers de calculer dynamiquement l'importance relative de chaque élément dans une séquence par rapport aux autres.
Multi-Head Attention
Extension du self-attention où plusieurs têtes d'attention opèrent en parallèle pour capturer différents types de relations dans les données.
Positional Encoding
Technique incorporant l'information de position séquentielle dans les embeddings pour compenser l'absence de récurrence dans les transformers.
Encoder-Decoder Architecture
Structure fondamentale des transformers originaux combinant un encodeur pour traiter l'entrée et un décodeur pour générer la sortie.
BERT (Bidirectional Encoder Representations)
Famille de modèles pré-entraînés basés sur l'architecture encodeur-only avec compréhension bidirectionnelle du contexte.
GPT (Generative Pre-trained Transformer)
Architecture décodeur-only optimisée pour la génération de texte auto-régressive, formant la base des grands modèles de langage.
Vision Transformers (ViT)
Application des architectures transformer au traitement d'images en divisant les images en patches et les traitant comme des séquences.
Sparse Attention Mechanisms
Variantes d'attention réduisant la complexité computationnelle en limitant les connexions entre éléments de la séquence.
Cross-Attention
Mécanisme d'attention où les requéries proviennent d'une séquence tandis que clés et valeurs viennent d'une autre séquence différente.
Transformer Scaling Laws
Principes empiriques décrivant comment la performance des transformers évolue avec la taille du modèle, des données et du calcul.
Attention Head Analysis
Étude des rôles spécialisés des différentes têtes d'attention dans les transformers pour comprendre leur fonctionnement interne.
Hierarchical Attention
Architecture d'attention organisée en plusieurs niveaux hiérarchiques pour traiter des données structurées complexes.