Vision Transformers (ViT)
Fusão de Patches
Operação em transformers hierárquicos que combina grupos de patches adjacentes de 2x2 para criar tokens de resolução inferior, aumentando assim a profundidade e o campo receptivo.
← Voltar