🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Vision Transformer (ViT)

Arquitetura neural aplicando os mecanismos Transformer ao processamento de imagens, dividindo as imagens em sequências de patches para processamento sequencial.

📖
termos

Patch Embedding

Processo de conversão dos patches de imagens em vetores de embeddings de dimensão fixa por projeção linear para alimentar o Transformer.

📖
termos

Class Token

Token especial adicionado à sequência de embeddings cuja representação final após passagem pelo Transformer serve para classificação da imagem.

📖
termos

Multi-Head Self-Attention

Mecanismo que permite ao modelo calcular simultaneamente várias representações de atenção para capturar diferentes relações entre os patches de imagem.

📖
termos

Transformer Encoder

Bloco fundamental composto por camadas de self-attention e redes feed-forward alternando com normalização e conexões residuais.

📖
termos

Image Patch Tokenization

Processo de divisão de uma imagem em patches não sobrepostos de tamanho fixo, tipicamente 16x16 pixels, convertidos posteriormente em tokens sequenciais.

📖
termos

Attention Map Visualization

Técnica de interpretabilidade que visualiza os pesos de atenção entre patches para compreender as regiões da imagem nas quais o modelo se concentra.

📖
termos

Pre-training on Large Datasets

Fase de treinamento inicial em milhões de imagens como ImageNet-21k para aprender representações visuais gerais antes do fine-tuning.

📖
termos

Hiperparâmetro do Tamanho do Patch

Parâmetro crucial que define a dimensão dos patches de imagem, influenciando diretamente a complexidade computacional e o desempenho do modelo.

📖
termos

Reconstrução de Token para Patch

Processo inverso em tarefas gerativas onde os tokens são convertidos de volta em patches de imagem para reconstruir a imagem original.

📖
termos

Vision Transformer Hierárquico

Variante do ViT que utiliza uma estrutura piramidal com tamanhos de patches variáveis para capturar características multiescala.

📖
termos

Pré-treinamento Auto-Supervisionado de ViT

Métodos de treinamento não supervisionado como DINO ou MAE que exploram a estrutura Transformer para aprender sem anotações.

📖
termos

Atenção Cruzada em ViT Multimodal

Mecanismo que estende o ViT para processar conjuntamente imagens e texto, usando a atenção entre diferentes modalidades.

📖
termos

Complexidade Computacional O(n²)

Complexidade quadrática da autoatenção em relação ao número de patches, constituindo a principal limitação dos Vision Transformers.

🔍

Nenhum resultado encontrado