Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Vision Transformer (ViT)
Architecture neuronale appliquant les mécanismes Transformer au traitement d'images en divisant les images en séquences de patches pour un traitement séquentiel.
Patch Embedding
Processus de conversion des patches d'images en vecteurs d'embeddings de dimension fixe par projection linéaire pour alimenter le Transformer.
Class Token
Token spécial ajouté à la séquence d'embeddings dont la représentation finale après passage dans le Transformer sert à la classification de l'image.
Multi-Head Self-Attention
Mécanisme permettant au modèle de calculer simultanément plusieurs représentations d'attention pour capturer différentes relations entre les patches d'image.
Transformer Encoder
Bloc fondamental composé de couches de self-attention et de réseaux feed-forward alternant avec normalisation et connexions résiduelles.
Image Patch Tokenization
Processus de découpage d'une image en patches non chevauchants de taille fixe typiquement 16x16 pixels convertis ensuite en tokens séquentiels.
Attention Map Visualization
Technique d'interprétabilité visualisant les poids d'attention entre patches pour comprendre les régions d'image sur lesquelles le modèle se concentre.
Pre-training on Large Datasets
Phase d'entraînement initial sur des millions d'images comme ImageNet-21k pour apprendre des représentations visuelles générales avant fine-tuning.
Patch Size Hyperparameter
Paramètre crucial définissant la dimension des patches d'images influençant directement la complexité computationnelle et les performances du modèle.
Token-to-Patch Reconstruction
Processus inverse dans les tâches génératives où les tokens sont reconvertis en patches image pour reconstruire l'image originale.
Hierarchical Vision Transformer
Variante de ViT utilisant une structure pyramidale avec des tailles de patches variables pour capturer des caractéristiques multi-échelles.
Self-Supervised ViT Pre-training
Méthodes d'entraînement non supervisé comme DINO ou MAE exploitant la structure Transformer pour apprendre sans annotations.
Cross-Attention in Multi-Modal ViT
Mécanisme étendant ViT pour traiter conjointement images et texte en utilisant l'attention entre modalités différentes.
Computational Complexity O(n²)
Complexité quadratique du self-attention par rapport au nombre de patches constituant la limitation principale des Vision Transformers.