Glossário IA
O dicionário completo da Inteligência Artificial
MLP Head
Módulo de classificação final geralmente composto por uma camada totalmente conectada com ativação, seguida por uma camada de saída para as previsões de classes. O MLP Head processa a representação final do Class Token para gerar os scores de classificação para cada classe possível.
Patch Size
Dimensão espacial dos quadrados nos quais a imagem de entrada é dividida, tipicamente 16x16 ou 32x32 pixels para as arquiteturas ViT padrão. O tamanho dos patches influencia diretamente o número de tokens gerados e a granularidade das informações espaciais preservadas pelo modelo.
Image Tokenization
Processo de conversão de uma imagem 2D em uma sequência de tokens 1D tratáveis pelos Transformers, envolvendo a segmentação em patches e a projeção linear. Essa tokenização é a etapa crucial que permite adaptar a arquitetura Transformer, inicialmente concebida para texto, ao domínio da visão.
Scale-Invariant Features
Características extraídas pelos Vision Transformers que permanecem robustas diante das mudanças de escala dos objetos nas imagens. Essas propriedades emergem naturalmente da arquitetura global dos Transformers graças à sua capacidade de modelar relações de longa distância entre patches.
Token-to-Token ViT (T2T-ViT)
Variante do Vision Transformer que utiliza um processo de tokenização iterativo para transformar progressivamente os patches em tokens mais informativos. Essa abordagem permite uma melhor modelagem da estrutura local e uma redução progressiva da resolução espacial, melhorando assim a eficiência computacional.
Pyramid Vision Transformer (PVT)
Arquitetura Transformer hierárquica que gera mapas de características em diferentes escalas, semelhante às pirâmides de características das CNNs. O PVT é particularmente adequado para tarefas de visão densa como a segmentação semântica e a detecção de objetos que requerem representações multi-escalas.
Swin Transformer
Arquitetura Transformer hierárquica com janelas de atenção deslocadas que permite uma modelagem eficiente das relações locais e globais com uma complexidade linear. O Swin Transformer introduz conexões multi-escalas e demonstrou desempenho excepcional em uma ampla gama de tarefas de visão.
DeiT (Data-efficient Image Transformers)
Variante de Vision Transformer treinada com estratégias de destilação de conhecimento para alcançar desempenhos competitivos com menos dados de treinamento. DeiT introduz um token de destilação adicional que aprende a partir das previsões de um professor CNN, reduzindo assim a lacuna de desempenho com abordagens baseadas em grandes volumes de dados.
Masked Autoencoders (MAE)
Abordagem de pré-treinamento auto-supervisionado onde Vision Transformers aprendem reconstruindo patches de imagens mascarados a partir dos patches visíveis restantes. Este método simples, mas eficaz, atinge desempenho de ponta em pré-treinamento ao mesmo tempo que é muito eficiente em termos de recursos computacionais.