Vision Transformers (ViT)
Fusión de Parches
Operación en transformers jerárquicos que combina grupos de 2x2 parches adyacentes para crear tokens de resolución inferior, aumentando así la profundidad y el campo receptivo.
← Volver