Glossário IA
O dicionário completo da Inteligência Artificial
Token de Classificação ([CLS])
Token especial adicionado à sequência de patches, cuja representação final é usada para a tarefa de classificação global da imagem, semelhante ao BERT em PNL.
Codificação Posicional 2D
Informação sobre a posição espacial dos patches adicionada aos embeddings, permitindo ao modelo compreender a estrutura 2D da imagem apesar do processamento sequencial.
Viés Indutivo
Hipóteses incorporadas num modelo; os ViT têm um viés indutivo mais fraco que as CNN porque não incorporam conhecimentos a priori sobre a localização e translação dos pixels.
Autoatenção em Janelas
Mecanismo de atenção onde os cálculos são restritos a janelas locais de patches, reduzindo a complexidade quadrática do MHSA padrão para imagens de alta resolução.
Pré-treinamento em Conjuntos de Dados em Grande Escala
Fase de treinamento inicial de um ViT em corpus massivos como ImageNet-21k ou JFT-300M, essencial para superar o seu baixo viés indutivo e alcançar bom desempenho.