Glossário IA
O dicionário completo da Inteligência Artificial
Transformer Multimodal
Arquitetura de rede neural do tipo Transformer projetada para processar e integrar simultaneamente dados de múltiplas modalidades, como texto, imagem, áudio ou vídeo, em um espaço de representação comum.
Espaço de Representação Unificado
Espaço vetorial latente único no qual os embeddings de todas as modalidades (texto, imagem, etc.) são projetados, permitindo comparações semânticas diretas e operações de raciocínio multimodal.
Modelo de Visão-Linguagem (VLM)
Classe específica de Transformers multimodais especializados na compreensão conjunta de texto e imagens, utilizados para tarefas como legendagem de imagens, VQA ou busca de imagens por texto.
ALBEF (Align Before Fuse)
Modelo visão-linguagem que utiliza pré-treinamento contrastivo para alinhar as representações de texto e imagem antes de fundi-las através de camadas Transformer de co-atenção, melhorando a qualidade da interação.
Embedding Agnóstico à Modalidade
Representação vetorial aprendida por um modelo multimodal que captura semânticas independentes da modalidade de origem, permitindo, por exemplo, recuperar uma imagem a partir de uma consulta textual.
Modelo de Fundação Multimodal
Grande modelo pré-treinado em dados massivos e diversificados (texto, imagem, áudio, etc.), projetado para ser adaptado (fine-tuned) a uma vasta gama de tarefas a jusante com o mínimo de esforço.
Unified-IO
Modelo unificado que processa uma vasta gama de modalidades de entrada (texto, imagens, áudio, etc.) e saída (geração de texto, desenho, etc.) usando uma única arquitetura Transformer e um formato de sequência unificado.
Patch Embedding Visual
Técnica popularizada por Vision Transformer (ViT) onde uma imagem é dividida em uma grade de patches não sobrepostos, cada um sendo então linearizado e projetado em um vetor de embedding para ser tratado como um token.
Pré-treinamento Multitarefa Multimodal
Estratégia de pré-treinamento onde o modelo é otimizado simultaneamente em múltiplos objetivos provenientes de diferentes modalidades (ex: mascaramento de linguagem, previsão de imagem, alinhamento áudio-texto) para aprender representações robustas.