Transformadores de Visão

📖

termos

MLP Head

Módulo de classificação final geralmente composto por uma camada totalmente conectada com ativação, seguida por uma camada de saída para as previsões de classes. O MLP Head processa a representação final do Class Token para gerar os scores de classificação para cada classe possível.

📖

termos

Patch Size

Dimensão espacial dos quadrados nos quais a imagem de entrada é dividida, tipicamente 16x16 ou 32x32 pixels para as arquiteturas ViT padrão. O tamanho dos patches influencia diretamente o número de tokens gerados e a granularidade das informações espaciais preservadas pelo modelo.

📖

termos

Image Tokenization

Processo de conversão de uma imagem 2D em uma sequência de tokens 1D tratáveis pelos Transformers, envolvendo a segmentação em patches e a projeção linear. Essa tokenização é a etapa crucial que permite adaptar a arquitetura Transformer, inicialmente concebida para texto, ao domínio da visão.

📖

termos

Scale-Invariant Features

Características extraídas pelos Vision Transformers que permanecem robustas diante das mudanças de escala dos objetos nas imagens. Essas propriedades emergem naturalmente da arquitetura global dos Transformers graças à sua capacidade de modelar relações de longa distância entre patches.

📖

termos

Token-to-Token ViT (T2T-ViT)

Variante do Vision Transformer que utiliza um processo de tokenização iterativo para transformar progressivamente os patches em tokens mais informativos. Essa abordagem permite uma melhor modelagem da estrutura local e uma redução progressiva da resolução espacial, melhorando assim a eficiência computacional.

📖

termos

Pyramid Vision Transformer (PVT)

Arquitetura Transformer hierárquica que gera mapas de características em diferentes escalas, semelhante às pirâmides de características das CNNs. O PVT é particularmente adequado para tarefas de visão densa como a segmentação semântica e a detecção de objetos que requerem representações multi-escalas.

📖

termos

Swin Transformer

Arquitetura Transformer hierárquica com janelas de atenção deslocadas que permite uma modelagem eficiente das relações locais e globais com uma complexidade linear. O Swin Transformer introduz conexões multi-escalas e demonstrou desempenho excepcional em uma ampla gama de tarefas de visão.

📖

termos

DeiT (Data-efficient Image Transformers)

Variante de Vision Transformer treinada com estratégias de destilação de conhecimento para alcançar desempenhos competitivos com menos dados de treinamento. DeiT introduz um token de destilação adicional que aprende a partir das previsões de um professor CNN, reduzindo assim a lacuna de desempenho com abordagens baseadas em grandes volumes de dados.

📖

termos

Masked Autoencoders (MAE)

Abordagem de pré-treinamento auto-supervisionado onde Vision Transformers aprendem reconstruindo patches de imagens mascarados a partir dos patches visíveis restantes. Este método simples, mas eficaz, atinge desempenho de ponta em pré-treinamento ao mesmo tempo que é muito eficiente em termos de recursos computacionais.

Glossário IA

MLP Head

Patch Size

Image Tokenization

Scale-Invariant Features

Token-to-Token ViT (T2T-ViT)

Pyramid Vision Transformer (PVT)

Swin Transformer

DeiT (Data-efficient Image Transformers)

Masked Autoencoders (MAE)

Nenhum resultado encontrado