Glossário IA
O dicionário completo da Inteligência Artificial
Autoatenção Multi-Cabeça (MHSA)
Mecanismo que permite ao modelo focar em diferentes partes da imagem simultaneamente, calculando múltiplas matrizes de atenção em paralelo, capturando assim diversos tipos de relações espaciais.
Escala de Camada
Técnica de regularização introduzida em ViTs profundos onde pesos aprendíveis são aplicados às saídas dos resíduos para estabilizar o treinamento das camadas iniciais.
Atenção por Janelas
Mecanismo de atenção restrito a janelas locais não sobrepostas da imagem, reduzindo a complexidade computacional de O(n²) para O(n), onde n é o número de patches.
Atenção por Janelas Deslocadas
Técnica onde as janelas de atenção são deslocadas entre as camadas para permitir conexões entre janelas, melhorando assim a capacidade do modelo de modelar relações de longa distância.
DeiT (Transformer de Imagem Eficiente em Dados)
Variante do ViT treinável com quantidades de dados mais modestas através de uma estratégia de destilação de conhecimento onde um token de destilação é adicionado para aprender de um professor CNN.
Token de Destilação
Token adicional no DeiT que aprende a imitar as previsões de um modelo professor (frequentemente uma CNN), facilitando a transferência de conhecimento e melhorando o desempenho com menos dados.
Autoencoder Mascarado (MAE)
Abordagem de auto-supervisão para ViT onde patches aleatórios da imagem são mascarados (até 75%) e o modelo aprende a reconstruí-los, revelando capacidades de aprendizado surpreendentes.
Fusão de Patches
Operação em transformers hierárquicos que combina grupos de patches adjacentes de 2x2 para criar tokens de resolução inferior, aumentando assim a profundidade e o campo receptivo.
Viés de Posição Relativa
Viés adicionado às pontuações de atenção que dependem da posição relativa dos patches, melhorando a capacidade do modelo de compreender as relações espaciais sem codificação de posição absoluta.
Arquitetura Híbrida
Abordagem que combina uma rede convolucional inicial para extração de características com um transformador para processamento global, utilizada nas primeiras implementações de ViT para reduzir as necessidades de dados.
Rotulagem de Tokens
Estratégia de treinamento onde cada patch recebe um rótulo supervisionado em vez de um único rótulo por imagem, forçando o modelo a aprender representações mais ricas e localizadas.