Glossário IA
O dicionário completo da Inteligência Artificial
Patches de Imagem
Divisão de uma imagem em grades regulares de pequenas seções quadradas (tipicamente 16x16 pixels) que são tratadas como tokens sequenciais pelo ViT.
Tokenização Visual
Processo de segmentação de uma imagem em uma sequência de tokens discretos, fundamental para adaptar a arquitetura transformer, inicialmente concebida para texto, a dados visuais.
DeiT (Data-efficient Image Transformer)
Variante de Vision Transformer treinada com estratégias de destilação para alcançar desempenho competitivo com menos dados de treinamento.
Vision Transformers Hierárquicos
Arquiteturas transformer que mantêm representações multi-escala da imagem, combinando as vantagens das CNNs tradicionais com a flexibilidade dos transformers.
Layer Scaling
Técnica de normalização aplicada aos resíduos nas camadas transformer para estabilizar o treinamento e melhorar a convergência de modelos profundos.
Cross-Attention Vision Transformer
Arquitetura que utiliza mecanismos de atenção cruzada entre diferentes modalidades ou representações, permitindo interações mais ricas entre features.
Self-Attention Baseada em Janelas
Variante de atenção restrita a janelas locais em vez da imagem completa, reduzindo a complexidade computacional enquanto captura relações locais importantes.