Vision Transformers (ViT)

📖

termes

Vision Transformer (ViT)

Architecture neuronale appliquant les mécanismes Transformer au traitement d'images en divisant les images en séquences de patches pour un traitement séquentiel.

📖

termes

Patch Embedding

Processus de conversion des patches d'images en vecteurs d'embeddings de dimension fixe par projection linéaire pour alimenter le Transformer.

📖

termes

Class Token

Token spécial ajouté à la séquence d'embeddings dont la représentation finale après passage dans le Transformer sert à la classification de l'image.

📖

termes

Multi-Head Self-Attention

Mécanisme permettant au modèle de calculer simultanément plusieurs représentations d'attention pour capturer différentes relations entre les patches d'image.

📖

termes

Transformer Encoder

Bloc fondamental composé de couches de self-attention et de réseaux feed-forward alternant avec normalisation et connexions résiduelles.

📖

termes

Image Patch Tokenization

Processus de découpage d'une image en patches non chevauchants de taille fixe typiquement 16x16 pixels convertis ensuite en tokens séquentiels.

📖

termes

Attention Map Visualization

Technique d'interprétabilité visualisant les poids d'attention entre patches pour comprendre les régions d'image sur lesquelles le modèle se concentre.

📖

termes

Pre-training on Large Datasets

Phase d'entraînement initial sur des millions d'images comme ImageNet-21k pour apprendre des représentations visuelles générales avant fine-tuning.

📖

termes

Patch Size Hyperparameter

Paramètre crucial définissant la dimension des patches d'images influençant directement la complexité computationnelle et les performances du modèle.

📖

termes

Token-to-Patch Reconstruction

Processus inverse dans les tâches génératives où les tokens sont reconvertis en patches image pour reconstruire l'image originale.

📖

termes

Hierarchical Vision Transformer

Variante de ViT utilisant une structure pyramidale avec des tailles de patches variables pour capturer des caractéristiques multi-échelles.

📖

termes

Self-Supervised ViT Pre-training

Méthodes d'entraînement non supervisé comme DINO ou MAE exploitant la structure Transformer pour apprendre sans annotations.

📖

termes

Cross-Attention in Multi-Modal ViT

Mécanisme étendant ViT pour traiter conjointement images et texte en utilisant l'attention entre modalités différentes.

📖

termes

Computational Complexity O(n²)

Complexité quadratique du self-attention par rapport au nombre de patches constituant la limitation principale des Vision Transformers.

Glossaire IA

Vision Transformer (ViT)

Patch Embedding

Class Token

Multi-Head Self-Attention

Transformer Encoder

Image Patch Tokenization

Attention Map Visualization

Pre-training on Large Datasets

Patch Size Hyperparameter

Token-to-Patch Reconstruction

Hierarchical Vision Transformer

Self-Supervised ViT Pre-training

Cross-Attention in Multi-Modal ViT

Computational Complexity O(n²)

Aucun résultat trouvé