Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Multi-Head Self-Attention (MHSA)
Mécanisme permettant au modèle de se concentrer sur différentes parties de l'image simultanément en calculant plusieurs matrices d'attention en parallèle, capturant ainsi divers types de relations spatiales.
Layer Scale
Technique de régularisation introduite dans les ViT profonds où des poids apprenables sont appliqués aux sorties des résidus pour stabiliser l'entraînement des couches initiales.
Windowed Attention
Mécanisme d'attention restreint à des fenêtres locales non-chevauchantes de l'image, réduisant la complexité computationnelle de O(n²) à O(n) où n est le nombre de patches.
Shifted Window Attention
Technique où les fenêtres d'attention sont décalées entre les couches pour permettre les connexions cross-window, améliorant ainsi la capacité du modèle à modéliser les relations à longue distance.
DeiT (Data-efficient Image Transformer)
Variante du ViT entraînable avec des quantités de données plus modestes grâce à une stratégie de distillation de connaissances où un token de distillation est ajouté pour apprendre d'un professeur CNN.
Distillation Token
Token supplémentaire dans DeiT qui apprend à imiter les prédictions d'un modèle professeur (souvent un CNN), facilitant le transfert de connaissances et améliorant les performances avec moins de données.
Masked Autoencoder (MAE)
Approche d'auto-supervision pour ViT où des patches aléatoires de l'image sont masqués (jusqu'à 75%) et le modèle apprend à les reconstruire, révélant des capacités d'apprentissage surprenantes.
Patch Merging
Opération dans les transformers hiérarchiques qui combine des groupes de 2x2 patches adjacents pour créer des tokens de résolution inférieure, augmentant ainsi la profondeur et le champ réceptif.
Relative Position Bias
Biais ajouté aux scores d'attention qui dépendent de la position relative des patches, améliorant la capacité du modèle à comprendre les relations spatiales sans encodage de position absolu.
Hybrid Architecture
Approche combinant un réseau convolutif initial pour l'extraction de features avec un transformer pour le traitement global, utilisée dans les premières implémentations de ViT pour réduire les besoins en données.
Token Labeling
Stratégie d'entraînement où chaque patch reçoit une étiquette supervisée au lieu d'une seule étiquette par image, forçant le modèle à apprendre des représentations plus riches et localisées.