Transformadores Multi-Modais

📖

termos

Transformer Multi-Modal

Arquitetura Transformer estendida capaz de processar simultaneamente múltiplas modalidades de dados (texto, imagem, áudio) usando mecanismos de atenção cruzada para integrar informações inter-modais.

📖

termos

Transformer Visão-Linguagem

Arquitetura Transformer especificamente projetada para compreender e gerar conjuntamente conteúdo visual e textual, usando codificadores compartilhados ou separados para cada modalidade.

📖

termos

Mecanismo de Fusão

Estratégia algorítmica que permite combinar efetivamente as representações de diferentes modalidades em um ou mais níveis da rede, incluindo fusão precoce, tardia ou hierárquica.

📖

termos

Vetores de codificação específicos adicionados aos embeddings de tokens para indicar a modalidade de origem (texto, imagem, áudio), permitindo que o Transformer distinga e processe diferentemente cada tipo de dado.

📖

termos

CLIP

Modelo Contrastive Language-Image Pre-training treinado em 400 milhões de pares imagem-texto usando um objetivo contrastivo para aprender representações compartilhadas entre visão e linguagem.

📖

termos

VLP

Família de modelos Vision-Language Pre-training usando um codificador Transformer compartilhado para ambas as modalidades com tarefas de pré-treinamento como modelagem mascarada e previsão imagem-texto.

📖

termos

Codificador-Decodificador Unificado

Arquitetura Transformer onde o mesmo codificador processa todas as modalidades de entrada e um decodificador gera a saída, permitindo tarefas como VQA, legendagem e recuperação com um único modelo.

📖

termos

Gap de Modalidade

Diferença estrutural e semântica inerente entre os espaços de representação de diferentes modalidades, exigindo mecanismos de alinhamento específicos em modelos multi-modais.

📖

termos

Fusão Multimodal

Processo de integração de características provenientes de diferentes modalidades em uma representação unificada, explorando as complementaridades inter-modais para melhorar o desempenho em tarefas complexas.

📖

termos

Alinhamento Intermodal

Objetivo de treinamento que visa alinhar semanticamente as representações de diferentes modalidades em um espaço compartilhado, permitindo a correspondência entre conceitos visuais e linguísticos.

📖

termos

Perceptor IO

Arquitetura Transformer geral capaz de processar qualquer combinação de modalidades usando uma rede de atenção cruzada entre os dados de entrada e um conjunto de latentes aprendidos.

📖

termos

Modelo Flamingo

Modelo visão-linguagem de 80 bilhões de parâmetros usando adaptadores pré-treinados e um gating de atenção para combinar eficientemente Vision Transformers e modelos de linguagem sem retreinamento completo.

📖

termos

BLIP

Framework Bootstrapping Language-Image Pre-training gerando pseudo-legendas para filtrar o ruído e melhorar a qualidade dos dados, usando um codificador multimodal e um decodificador imagem-texto.

📖

termos

CoCa

Modelo Contrastive Captioners combinando um objetivo contrastivo para aprendizado de representações e um objetivo generativo para legendagem em uma única arquitetura Transformer unificada.

📖

termos

BEiT-3

Modelo Bidirectional Encoder representation from Image Transformer v3 usando um Transformer multivias com embeddings específicos de modalidade para processar imagem, texto e imagem-texto de maneira unificada.

📖

termos

LayoutLM

Família de modelos pré-treinados em documentos combinando layout espacial 2D, texto e informações visuais para compreensão de documentos estruturados como formulários e faturas.

📖

termos

UniPerceiver

Framework universal de percepção que trata diversas tarefas multimodais como um problema unificado de geração de tokens, utilizando um único modelo Transformer para classificação, detecção e geração.

📖

termos

GIT

Modelo Generative Image-to-text Transformer que trata imagens como uma língua estrangeira e utiliza uma arquitetura simples codificador-decodificador para descrição de imagens e VQA com desempenho state-of-the-art.

Glossário IA

Transformer Multi-Modal

Transformer Visão-Linguagem

Mecanismo de Fusão

Embedding de Modalidade

CLIP

VLP

Codificador-Decodificador Unificado

Gap de Modalidade

Fusão Multimodal

Alinhamento Intermodal

Perceptor IO

Modelo Flamingo

BLIP

CoCa

BEiT-3

LayoutLM

UniPerceiver

GIT

Nenhum resultado encontrado