Vision Transformers (ViT)
Multi-Head Self-Attention
Mecanismo que permite ao modelo calcular simultaneamente várias representações de atenção para capturar diferentes relações entre os patches de imagem.
← Voltar