Vision Transformers - KI-Glossar

📖

Begriffe

MLP Head

Module de classification final composé généralement d'une couche entièrement connectée avec activation, suivi d'une couche de sortie pour les prédictions de classes. Le MLP Head traite la représentation finale du Class Token pour générer les scores de classification pour chaque classe possible.

📖

Begriffe

Patch Size

Dimension spatiale des carrés dans lesquels l'image d'entrée est divisée, typiquement 16x16 ou 32x32 pixels pour les architectures ViT standard. La taille des patches influence directement le nombre de tokens générés et la granularité des informations spatiales préservées par le modèle.

📖

Begriffe

Image Tokenization

Processus de conversion d'une image 2D en une séquence de tokens 1D traitables par les Transformers, impliquant la segmentation en patches et la projection linéaire. Cette tokenisation est l'étape cruciale qui permet d'adapter l'architecture Transformer, initialement conçue pour le texte, au domaine de la vision.

📖

Begriffe

Scale-Invariant Features

Caractéristiques extraites par les Vision Transformers qui restent robustes face aux changements d'échelle des objets dans les images. Ces propriétés émergent naturellement de l'architecture globale des Transformers grâce à leur capacité à modéliser des relations à longue distance entre patches.

📖

Begriffe

Token-to-Token ViT (T2T-ViT)

Variante du Vision Transformer qui utilise un processus de tokenisation itératif pour transformer progressivement les patches en tokens plus informatifs. Cette approche permet une meilleure modélisation de la structure locale et une réduction progressive de la résolution spatiale, améliorant ainsi l'efficacité computationnelle.

📖

Begriffe

Pyramid Vision Transformer (PVT)

Architecture Transformer hiérarchique qui génère des cartes de caractéristiques à différentes échelles, similaire aux pyramides de caractéristiques des CNNs. Le PVT est particulièrement adapté pour les tâches de vision dense comme la segmentation sémantique et la détection d'objets qui nécessitent des représentations multi-échelles.

📖

Begriffe

Swin Transformer

Architecture Transformer hiérarchique avec des fenêtres d'attention décalées qui permet une modélisation efficace des relations locales et globales avec une complexité linéaire. Le Swin Transformer introduit des connexions multi-échelles et a démontré des performances exceptionnelles sur un large éventail de tâches de vision.

📖

Begriffe

DeiT (Data-efficient Image Transformers)

Variante de Vision Transformer entraînée avec des stratégies de distillation de connaissances pour atteindre des performances compétitives avec moins de données d'entraînement. DeiT introduit un token de distillation supplémentaire qui apprend à partir des prédictions d'un enseignant CNN, réduisant ainsi l'écart de performance avec les approches basées sur des données massives.

📖

Begriffe

Masked Autoencoders (MAE)

Self-supervised pre-training approach where Vision Transformers learn by reconstructing masked image patches from the remaining visible patches. This simple yet effective method achieves state-of-the-art pre-training performance while being highly computationally efficient.

KI-Glossar

MLP Head

Patch Size

Image Tokenization

Scale-Invariant Features

Token-to-Token ViT (T2T-ViT)

Pyramid Vision Transformer (PVT)

Swin Transformer

DeiT (Data-efficient Image Transformers)

Masked Autoencoders (MAE)

Keine Ergebnisse gefunden