YZ Sözlüğü
Yapay Zekanın tam sözlüğü
MLP Head
Module de classification final composé généralement d'une couche entièrement connectée avec activation, suivi d'une couche de sortie pour les prédictions de classes. Le MLP Head traite la représentation finale du Class Token pour générer les scores de classification pour chaque classe possible.
Patch Size
Dimension spatiale des carrés dans lesquels l'image d'entrée est divisée, typiquement 16x16 ou 32x32 pixels pour les architectures ViT standard. La taille des patches influence directement le nombre de tokens générés et la granularité des informations spatiales préservées par le modèle.
Image Tokenization
Processus de conversion d'une image 2D en une séquence de tokens 1D traitables par les Transformers, impliquant la segmentation en patches et la projection linéaire. Cette tokenisation est l'étape cruciale qui permet d'adapter l'architecture Transformer, initialement conçue pour le texte, au domaine de la vision.
Scale-Invariant Features
Caractéristiques extraites par les Vision Transformers qui restent robustes face aux changements d'échelle des objets dans les images. Ces propriétés émergent naturellement de l'architecture globale des Transformers grâce à leur capacité à modéliser des relations à longue distance entre patches.
Token-to-Token ViT (T2T-ViT)
Variante du Vision Transformer qui utilise un processus de tokenisation itératif pour transformer progressivement les patches en tokens plus informatifs. Cette approche permet une meilleure modélisation de la structure locale et une réduction progressive de la résolution spatiale, améliorant ainsi l'efficacité computationnelle.
Pyramid Vision Transformer (PVT)
Architecture Transformer hiérarchique qui génère des cartes de caractéristiques à différentes échelles, similaire aux pyramides de caractéristiques des CNNs. Le PVT est particulièrement adapté pour les tâches de vision dense comme la segmentation sémantique et la détection d'objets qui nécessitent des représentations multi-échelles.
Swin Transformer
Architecture Transformer hiérarchique avec des fenêtres d'attention décalées qui permet une modélisation efficace des relations locales et globales avec une complexité linéaire. Le Swin Transformer introduit des connexions multi-échelles et a démontré des performances exceptionnelles sur un large éventail de tâches de vision.
DeiT (Data-efficient Image Transformers)
Variante de Vision Transformer entraînée avec des stratégies de distillation de connaissances pour atteindre des performances compétitives avec moins de données d'entraînement. DeiT introduit un token de distillation supplémentaire qui apprend à partir des prédictions d'un enseignant CNN, réduisant ainsi l'écart de performance avec les approches basées sur des données massives.
Masked Autoencoders (MAE)
Self-supervised pre-training approach where Vision Transformers learn by reconstructing masked image patches from the remaining visible patches. This simple yet effective method achieves state-of-the-art pre-training performance while being highly computationally efficient.