Glossário IA
O dicionário completo da Inteligência Artificial
Vision Transformer (ViT)
Arquitetura neural aplicando os mecanismos Transformer ao processamento de imagens, dividindo as imagens em sequências de patches para processamento sequencial.
Patch Embedding
Processo de conversão dos patches de imagens em vetores de embeddings de dimensão fixa por projeção linear para alimentar o Transformer.
Class Token
Token especial adicionado à sequência de embeddings cuja representação final após passagem pelo Transformer serve para classificação da imagem.
Multi-Head Self-Attention
Mecanismo que permite ao modelo calcular simultaneamente várias representações de atenção para capturar diferentes relações entre os patches de imagem.
Transformer Encoder
Bloco fundamental composto por camadas de self-attention e redes feed-forward alternando com normalização e conexões residuais.
Image Patch Tokenization
Processo de divisão de uma imagem em patches não sobrepostos de tamanho fixo, tipicamente 16x16 pixels, convertidos posteriormente em tokens sequenciais.
Attention Map Visualization
Técnica de interpretabilidade que visualiza os pesos de atenção entre patches para compreender as regiões da imagem nas quais o modelo se concentra.
Pre-training on Large Datasets
Fase de treinamento inicial em milhões de imagens como ImageNet-21k para aprender representações visuais gerais antes do fine-tuning.
Hiperparâmetro do Tamanho do Patch
Parâmetro crucial que define a dimensão dos patches de imagem, influenciando diretamente a complexidade computacional e o desempenho do modelo.
Reconstrução de Token para Patch
Processo inverso em tarefas gerativas onde os tokens são convertidos de volta em patches de imagem para reconstruir a imagem original.
Vision Transformer Hierárquico
Variante do ViT que utiliza uma estrutura piramidal com tamanhos de patches variáveis para capturar características multiescala.
Pré-treinamento Auto-Supervisionado de ViT
Métodos de treinamento não supervisionado como DINO ou MAE que exploram a estrutura Transformer para aprender sem anotações.
Atenção Cruzada em ViT Multimodal
Mecanismo que estende o ViT para processar conjuntamente imagens e texto, usando a atenção entre diferentes modalidades.
Complexidade Computacional O(n²)
Complexidade quadrática da autoatenção em relação ao número de patches, constituindo a principal limitação dos Vision Transformers.