Vision Transformers - Glossaire IA

📖

termes

MLP Head

Module de classification final composé généralement d'une couche entièrement connectée avec activation, suivi d'une couche de sortie pour les prédictions de classes. Le MLP Head traite la représentation finale du Class Token pour générer les scores de classification pour chaque classe possible.

📖

termes

Patch Size

Dimension spatiale des carrés dans lesquels l'image d'entrée est divisée, typiquement 16x16 ou 32x32 pixels pour les architectures ViT standard. La taille des patches influence directement le nombre de tokens générés et la granularité des informations spatiales préservées par le modèle.

📖

termes

Image Tokenization

Processus de conversion d'une image 2D en une séquence de tokens 1D traitables par les Transformers, impliquant la segmentation en patches et la projection linéaire. Cette tokenisation est l'étape cruciale qui permet d'adapter l'architecture Transformer, initialement conçue pour le texte, au domaine de la vision.

📖

termes

Scale-Invariant Features

Caractéristiques extraites par les Vision Transformers qui restent robustes face aux changements d'échelle des objets dans les images. Ces propriétés émergent naturellement de l'architecture globale des Transformers grâce à leur capacité à modéliser des relations à longue distance entre patches.

📖

termes

Token-to-Token ViT (T2T-ViT)

Variante du Vision Transformer qui utilise un processus de tokenisation itératif pour transformer progressivement les patches en tokens plus informatifs. Cette approche permet une meilleure modélisation de la structure locale et une réduction progressive de la résolution spatiale, améliorant ainsi l'efficacité computationnelle.

📖

termes

Pyramid Vision Transformer (PVT)

Architecture Transformer hiérarchique qui génère des cartes de caractéristiques à différentes échelles, similaire aux pyramides de caractéristiques des CNNs. Le PVT est particulièrement adapté pour les tâches de vision dense comme la segmentation sémantique et la détection d'objets qui nécessitent des représentations multi-échelles.

📖

termes

Swin Transformer

Architecture Transformer hiérarchique avec des fenêtres d'attention décalées qui permet une modélisation efficace des relations locales et globales avec une complexité linéaire. Le Swin Transformer introduit des connexions multi-échelles et a démontré des performances exceptionnelles sur un large éventail de tâches de vision.

📖

termes

DeiT (Data-efficient Image Transformers)

Variante de Vision Transformer entraînée avec des stratégies de distillation de connaissances pour atteindre des performances compétitives avec moins de données d'entraînement. DeiT introduit un token de distillation supplémentaire qui apprend à partir des prédictions d'un enseignant CNN, réduisant ainsi l'écart de performance avec les approches basées sur des données massives.

📖

termes

Masked Autoencoders (MAE)

Approche de pré-entraînement self-supervisé où des Vision Transformers apprennent en reconstruisant des patches d'images masqués à partir des patches visibles restants. Cette méthode simple mais efficace atteint des performances de pointe en pré-entraînement tout en étant très économe en ressources computationnelles.

Glossaire IA

MLP Head

Patch Size

Image Tokenization

Scale-Invariant Features

Token-to-Token ViT (T2T-ViT)

Pyramid Vision Transformer (PVT)

Swin Transformer

DeiT (Data-efficient Image Transformers)

Masked Autoencoders (MAE)

Aucun résultat trouvé