Glossário IA
O dicionário completo da Inteligência Artificial
Alinhamento de Modalidades
Processo de treinamento que visa alinhar os espaços de representação de diferentes modalidades em um espaço vetorial comum para facilitar as transferências cross-modais.
Perceiver
Arquitetura Transformer generalista capaz de processar dados arbitrários multimodais usando um mecanismo de atenção cruzada (cross-attention) entre entradas e um gargalo latente (latent bottleneck).
Pré-treinamento Multimodal Unificado
Abordagem que pré-treina um único modelo em múltiplas tarefas e modalidades simultaneamente para obter representações mais gerais e transferíveis.
Transformer de Legenda de Imagem
Arquitetura encoder-decoder Transformer que gera automaticamente descrições textuais descritivas e coerentes para imagens de entrada.
Transformer Áudio-Visual
Modelo Transformer que processa simultaneamente fluxos de áudio e vídeo para tarefas como reconhecimento audiovisual ou geração sincronizada.
Transformer de Vídeo
Variante do Vision Transformer adaptada ao processamento sequencial de frames de vídeo, incorporando informações temporais através da atenção espaço-temporal.
Fusão Multimodal Baseada em Transformer
Técnica que utiliza os mecanismos de atenção dos Transformers para fundir inteligentemente as características de múltiplas modalidades a nível semântico.