Glossário IA
O dicionário completo da Inteligência Artificial
Fusão de Tokens
Técnica de concatenação ou fusão de tokens provenientes de diferentes modalidades antes do seu processamento pelas camadas transformer. Permite uma integração precoce de informações multimodais para uma melhor representação conjunta.
ALIGN
Modelo contrastivo imagem-texto treinado em um bilhão de pares ruidosos filtrados automaticamente. Demonstra que a quantidade de dados pode compensar o ruído na aprendizagem multimodal em larga escala.
Flamingo
Modelo visão-linguagem que adapta transformers pré-treinados existentes com módulos de atenção visual-linguística. Permite o aprendizado com poucos exemplos (few-shot learning) em tarefas complexas de compreensão multimodal sem retreinamento completo.
Representação Cross-Modal
Espaço vetorial compartilhado onde os embeddings de diferentes modalidades são alinhados semanticamente para permitir interações intermodais. Facilita a transferência de conhecimento e a compreensão unificada entre textos, imagens, áudio e vídeo.
MViT (Multiscale Vision Transformer)
Arquitetura transformer de vídeo que combina características em múltiplas escalas temporais e espaciais. Utiliza atenção piramidal para capturar eficazmente as relações de longo alcance em sequências de vídeo.
Atenção Cruzada Multi-Cabeça
Extensão do mecanismo multi-cabeça onde cada cabeça aprende diferentes correspondências cross-modais entre modalidades. Permite uma captura mais rica e diversificada das relações intermodais em arquiteturas transformers multimodais.