Glossário IA
O dicionário completo da Inteligência Artificial
Transformer Multi-Modal
Arquitetura Transformer estendida capaz de processar simultaneamente múltiplas modalidades de dados (texto, imagem, áudio) usando mecanismos de atenção cruzada para integrar informações inter-modais.
Transformer Visão-Linguagem
Arquitetura Transformer especificamente projetada para compreender e gerar conjuntamente conteúdo visual e textual, usando codificadores compartilhados ou separados para cada modalidade.
Mecanismo de Fusão
Estratégia algorítmica que permite combinar efetivamente as representações de diferentes modalidades em um ou mais níveis da rede, incluindo fusão precoce, tardia ou hierárquica.
Embedding de Modalidade
Vetores de codificação específicos adicionados aos embeddings de tokens para indicar a modalidade de origem (texto, imagem, áudio), permitindo que o Transformer distinga e processe diferentemente cada tipo de dado.
CLIP
Modelo Contrastive Language-Image Pre-training treinado em 400 milhões de pares imagem-texto usando um objetivo contrastivo para aprender representações compartilhadas entre visão e linguagem.
VLP
Família de modelos Vision-Language Pre-training usando um codificador Transformer compartilhado para ambas as modalidades com tarefas de pré-treinamento como modelagem mascarada e previsão imagem-texto.
Codificador-Decodificador Unificado
Arquitetura Transformer onde o mesmo codificador processa todas as modalidades de entrada e um decodificador gera a saída, permitindo tarefas como VQA, legendagem e recuperação com um único modelo.
Gap de Modalidade
Diferença estrutural e semântica inerente entre os espaços de representação de diferentes modalidades, exigindo mecanismos de alinhamento específicos em modelos multi-modais.
Fusão Multimodal
Processo de integração de características provenientes de diferentes modalidades em uma representação unificada, explorando as complementaridades inter-modais para melhorar o desempenho em tarefas complexas.
Alinhamento Intermodal
Objetivo de treinamento que visa alinhar semanticamente as representações de diferentes modalidades em um espaço compartilhado, permitindo a correspondência entre conceitos visuais e linguísticos.
Perceptor IO
Arquitetura Transformer geral capaz de processar qualquer combinação de modalidades usando uma rede de atenção cruzada entre os dados de entrada e um conjunto de latentes aprendidos.
Modelo Flamingo
Modelo visão-linguagem de 80 bilhões de parâmetros usando adaptadores pré-treinados e um gating de atenção para combinar eficientemente Vision Transformers e modelos de linguagem sem retreinamento completo.
BLIP
Framework Bootstrapping Language-Image Pre-training gerando pseudo-legendas para filtrar o ruído e melhorar a qualidade dos dados, usando um codificador multimodal e um decodificador imagem-texto.
CoCa
Modelo Contrastive Captioners combinando um objetivo contrastivo para aprendizado de representações e um objetivo generativo para legendagem em uma única arquitetura Transformer unificada.
BEiT-3
Modelo Bidirectional Encoder representation from Image Transformer v3 usando um Transformer multivias com embeddings específicos de modalidade para processar imagem, texto e imagem-texto de maneira unificada.
LayoutLM
Família de modelos pré-treinados em documentos combinando layout espacial 2D, texto e informações visuais para compreensão de documentos estruturados como formulários e faturas.
UniPerceiver
Framework universal de percepção que trata diversas tarefas multimodais como um problema unificado de geração de tokens, utilizando um único modelo Transformer para classificação, detecção e geração.
GIT
Modelo Generative Image-to-text Transformer que trata imagens como uma língua estrangeira e utiliza uma arquitetura simples codificador-decodificador para descrição de imagens e VQA com desempenho state-of-the-art.