Glossário IA

O dicionário completo da Inteligência Artificial

242

categorias

3.306

subcategorias

39.932

termos

📖

termos

Fusão de Tokens

Técnica de concatenação ou fusão de tokens provenientes de diferentes modalidades antes do seu processamento pelas camadas transformer. Permite uma integração precoce de informações multimodais para uma melhor representação conjunta.

📖

termos

ALIGN

Modelo contrastivo imagem-texto treinado em um bilhão de pares ruidosos filtrados automaticamente. Demonstra que a quantidade de dados pode compensar o ruído na aprendizagem multimodal em larga escala.

📖

termos

Flamingo

Modelo visão-linguagem que adapta transformers pré-treinados existentes com módulos de atenção visual-linguística. Permite o aprendizado com poucos exemplos (few-shot learning) em tarefas complexas de compreensão multimodal sem retreinamento completo.

📖

termos

Representação Cross-Modal

Espaço vetorial compartilhado onde os embeddings de diferentes modalidades são alinhados semanticamente para permitir interações intermodais. Facilita a transferência de conhecimento e a compreensão unificada entre textos, imagens, áudio e vídeo.

📖

termos

MViT (Multiscale Vision Transformer)

Arquitetura transformer de vídeo que combina características em múltiplas escalas temporais e espaciais. Utiliza atenção piramidal para capturar eficazmente as relações de longo alcance em sequências de vídeo.

📖

termos

Atenção Cruzada Multi-Cabeça

Extensão do mecanismo multi-cabeça onde cada cabeça aprende diferentes correspondências cross-modais entre modalidades. Permite uma captura mais rica e diversificada das relações intermodais em arquiteturas transformers multimodais.

🔍

Glossário IA

Fusão de Tokens

ALIGN

Flamingo

Representação Cross-Modal

MViT (Multiscale Vision Transformer)

Atenção Cruzada Multi-Cabeça

Nenhum resultado encontrado