Glossario IA
Il dizionario completo dell'Intelligenza Artificiale
Token de Classification ([CLS])
Token spécial ajouté à la séquence de patches, dont la représentation finale est utilisée pour la tâche de classification globale de l'image, similaire au BERT en NLP.
Positional Encoding 2D
Information sur la position spatiale des patches ajoutée aux embeddings, permettant au modèle de comprendre la structure 2D de l'image malgré le traitement séquentiel.
Inductive Bias
Hypothèses intégrées dans un modèle; les ViT ont un biais inductif plus faible que les CNN car ils n'incorporent pas de connaissances a priori sur la localisation et la translation des pixels.
Windowed Self-Attention
Mécanisme d'attention où les calculs sont restreints à des fenêtres locales de patches, réduisant la complexité quadratique du MHSA standard pour les images haute résolution.
Pre-training on Large-Scale Datasets
Phase d'entraînement initial d'un ViT sur des corpus massifs comme ImageNet-21k ou JFT-300M, essentielle pour surmonter son faible biais inductif et atteindre de bonnes performances.