Vision Transformers (ViT)

📖

termes

Multi-Head Self-Attention (MHSA)

Mécanisme permettant au modèle de se concentrer sur différentes parties de l'image simultanément en calculant plusieurs matrices d'attention en parallèle, capturant ainsi divers types de relations spatiales.

📖

termes

Layer Scale

Technique de régularisation introduite dans les ViT profonds où des poids apprenables sont appliqués aux sorties des résidus pour stabiliser l'entraînement des couches initiales.

📖

termes

Windowed Attention

Mécanisme d'attention restreint à des fenêtres locales non-chevauchantes de l'image, réduisant la complexité computationnelle de O(n²) à O(n) où n est le nombre de patches.

📖

termes

Shifted Window Attention

Technique où les fenêtres d'attention sont décalées entre les couches pour permettre les connexions cross-window, améliorant ainsi la capacité du modèle à modéliser les relations à longue distance.

📖

termes

DeiT (Data-efficient Image Transformer)

Variante du ViT entraînable avec des quantités de données plus modestes grâce à une stratégie de distillation de connaissances où un token de distillation est ajouté pour apprendre d'un professeur CNN.

📖

termes

Distillation Token

Token supplémentaire dans DeiT qui apprend à imiter les prédictions d'un modèle professeur (souvent un CNN), facilitant le transfert de connaissances et améliorant les performances avec moins de données.

📖

termes

Masked Autoencoder (MAE)

Approche d'auto-supervision pour ViT où des patches aléatoires de l'image sont masqués (jusqu'à 75%) et le modèle apprend à les reconstruire, révélant des capacités d'apprentissage surprenantes.

📖

termes

Patch Merging

Opération dans les transformers hiérarchiques qui combine des groupes de 2x2 patches adjacents pour créer des tokens de résolution inférieure, augmentant ainsi la profondeur et le champ réceptif.

📖

termes

Relative Position Bias

Biais ajouté aux scores d'attention qui dépendent de la position relative des patches, améliorant la capacité du modèle à comprendre les relations spatiales sans encodage de position absolu.

📖

termes

Hybrid Architecture

Approche combinant un réseau convolutif initial pour l'extraction de features avec un transformer pour le traitement global, utilisée dans les premières implémentations de ViT pour réduire les besoins en données.

📖

termes

Token Labeling

Stratégie d'entraînement où chaque patch reçoit une étiquette supervisée au lieu d'une seule étiquette par image, forçant le modèle à apprendre des représentations plus riches et localisées.

Glossaire IA

Multi-Head Self-Attention (MHSA)

Layer Scale

Windowed Attention

Shifted Window Attention

DeiT (Data-efficient Image Transformer)

Distillation Token

Masked Autoencoder (MAE)

Patch Merging

Relative Position Bias

Hybrid Architecture

Token Labeling

Aucun résultat trouvé