Vision Transformers (ViT)
Atención por Ventanas
Mecanismo de atención restringido a ventanas locales no superpuestas de la imagen, reduciendo la complejidad computacional de O(n²) a O(n) donde n es el número de parches.
← Volver