Vision Transformers pour Détection
Self-Attention Visuelle
Mécanisme permettant à chaque patch d'image d'évaluer son importance relative par rapport à tous les autres patches pour capturer des dépendances globales sans convolution.
← Retour