Vision Transformers (ViT)
Windowed Attention
Mécanisme d'attention restreint à des fenêtres locales non-chevauchantes de l'image, réduisant la complexité computationnelle de O(n²) à O(n) où n est le nombre de patches.
← Retour