Vision Transformers pour Détection
Cross-Attention Détection
Mécanisme bidirectionnel où les requêtes d'objets interagissent avec les features de l'image pour localiser et classifier simultanément les objets.
← Retour