Vision Transformers (ViT)

📖

termos

Autoatenção Multi-Cabeça (MHSA)

Mecanismo que permite ao modelo focar em diferentes partes da imagem simultaneamente, calculando múltiplas matrizes de atenção em paralelo, capturando assim diversos tipos de relações espaciais.

📖

termos

Escala de Camada

Técnica de regularização introduzida em ViTs profundos onde pesos aprendíveis são aplicados às saídas dos resíduos para estabilizar o treinamento das camadas iniciais.

📖

termos

Atenção por Janelas

Mecanismo de atenção restrito a janelas locais não sobrepostas da imagem, reduzindo a complexidade computacional de O(n²) para O(n), onde n é o número de patches.

📖

termos

Atenção por Janelas Deslocadas

Técnica onde as janelas de atenção são deslocadas entre as camadas para permitir conexões entre janelas, melhorando assim a capacidade do modelo de modelar relações de longa distância.

📖

termos

DeiT (Transformer de Imagem Eficiente em Dados)

Variante do ViT treinável com quantidades de dados mais modestas através de uma estratégia de destilação de conhecimento onde um token de destilação é adicionado para aprender de um professor CNN.

📖

termos

Token de Destilação

Token adicional no DeiT que aprende a imitar as previsões de um modelo professor (frequentemente uma CNN), facilitando a transferência de conhecimento e melhorando o desempenho com menos dados.

📖

termos

Autoencoder Mascarado (MAE)

Abordagem de auto-supervisão para ViT onde patches aleatórios da imagem são mascarados (até 75%) e o modelo aprende a reconstruí-los, revelando capacidades de aprendizado surpreendentes.

📖

termos

Fusão de Patches

Operação em transformers hierárquicos que combina grupos de patches adjacentes de 2x2 para criar tokens de resolução inferior, aumentando assim a profundidade e o campo receptivo.

📖

termos

Viés de Posição Relativa

Viés adicionado às pontuações de atenção que dependem da posição relativa dos patches, melhorando a capacidade do modelo de compreender as relações espaciais sem codificação de posição absoluta.

📖

termos

Abordagem que combina uma rede convolucional inicial para extração de características com um transformador para processamento global, utilizada nas primeiras implementações de ViT para reduzir as necessidades de dados.

📖

termos

Rotulagem de Tokens

Estratégia de treinamento onde cada patch recebe um rótulo supervisionado em vez de um único rótulo por imagem, forçando o modelo a aprender representações mais ricas e localizadas.

Glossário IA

Autoatenção Multi-Cabeça (MHSA)

Escala de Camada

Atenção por Janelas

Atenção por Janelas Deslocadas

DeiT (Transformer de Imagem Eficiente em Dados)

Token de Destilação

Autoencoder Mascarado (MAE)

Fusão de Patches

Viés de Posição Relativa

Arquitetura Híbrida

Rotulagem de Tokens

Nenhum resultado encontrado