Vision Transformers (ViT)

📖

termos

Vision Transformer (ViT)

Arquitetura neural aplicando os mecanismos Transformer ao processamento de imagens, dividindo as imagens em sequências de patches para processamento sequencial.

📖

termos

Patch Embedding

Processo de conversão dos patches de imagens em vetores de embeddings de dimensão fixa por projeção linear para alimentar o Transformer.

📖

termos

Class Token

Token especial adicionado à sequência de embeddings cuja representação final após passagem pelo Transformer serve para classificação da imagem.

📖

termos

Multi-Head Self-Attention

Mecanismo que permite ao modelo calcular simultaneamente várias representações de atenção para capturar diferentes relações entre os patches de imagem.

📖

termos

Transformer Encoder

Bloco fundamental composto por camadas de self-attention e redes feed-forward alternando com normalização e conexões residuais.

📖

termos

Image Patch Tokenization

Processo de divisão de uma imagem em patches não sobrepostos de tamanho fixo, tipicamente 16x16 pixels, convertidos posteriormente em tokens sequenciais.

📖

termos

Attention Map Visualization

Técnica de interpretabilidade que visualiza os pesos de atenção entre patches para compreender as regiões da imagem nas quais o modelo se concentra.

📖

termos

Pre-training on Large Datasets

Fase de treinamento inicial em milhões de imagens como ImageNet-21k para aprender representações visuais gerais antes do fine-tuning.

📖

termos

Hiperparâmetro do Tamanho do Patch

Parâmetro crucial que define a dimensão dos patches de imagem, influenciando diretamente a complexidade computacional e o desempenho do modelo.

📖

termos

Reconstrução de Token para Patch

Processo inverso em tarefas gerativas onde os tokens são convertidos de volta em patches de imagem para reconstruir a imagem original.

📖

termos

Vision Transformer Hierárquico

Variante do ViT que utiliza uma estrutura piramidal com tamanhos de patches variáveis para capturar características multiescala.

📖

termos

Pré-treinamento Auto-Supervisionado de ViT

Métodos de treinamento não supervisionado como DINO ou MAE que exploram a estrutura Transformer para aprender sem anotações.

📖

termos

Atenção Cruzada em ViT Multimodal

Mecanismo que estende o ViT para processar conjuntamente imagens e texto, usando a atenção entre diferentes modalidades.

📖

termos

Complexidade Computacional O(n²)

Complexidade quadrática da autoatenção em relação ao número de patches, constituindo a principal limitação dos Vision Transformers.

Glossário IA

Vision Transformer (ViT)

Patch Embedding

Class Token

Multi-Head Self-Attention

Transformer Encoder

Image Patch Tokenization

Attention Map Visualization

Pre-training on Large Datasets

Hiperparâmetro do Tamanho do Patch

Reconstrução de Token para Patch

Vision Transformer Hierárquico

Pré-treinamento Auto-Supervisionado de ViT

Atenção Cruzada em ViT Multimodal

Complexidade Computacional O(n²)

Nenhum resultado encontrado