Transformers Multimodais

📖

termos

Transformer Multimodal

Arquitetura de rede neural do tipo Transformer projetada para processar e integrar simultaneamente dados de múltiplas modalidades, como texto, imagem, áudio ou vídeo, em um espaço de representação comum.

📖

termos

Espaço de Representação Unificado

Espaço vetorial latente único no qual os embeddings de todas as modalidades (texto, imagem, etc.) são projetados, permitindo comparações semânticas diretas e operações de raciocínio multimodal.

📖

termos

Modelo de Visão-Linguagem (VLM)

Classe específica de Transformers multimodais especializados na compreensão conjunta de texto e imagens, utilizados para tarefas como legendagem de imagens, VQA ou busca de imagens por texto.

📖

termos

ALBEF (Align Before Fuse)

Modelo visão-linguagem que utiliza pré-treinamento contrastivo para alinhar as representações de texto e imagem antes de fundi-las através de camadas Transformer de co-atenção, melhorando a qualidade da interação.

📖

termos

Embedding Agnóstico à Modalidade

Representação vetorial aprendida por um modelo multimodal que captura semânticas independentes da modalidade de origem, permitindo, por exemplo, recuperar uma imagem a partir de uma consulta textual.

📖

termos

Modelo de Fundação Multimodal

Grande modelo pré-treinado em dados massivos e diversificados (texto, imagem, áudio, etc.), projetado para ser adaptado (fine-tuned) a uma vasta gama de tarefas a jusante com o mínimo de esforço.

📖

termos

Unified-IO

Modelo unificado que processa uma vasta gama de modalidades de entrada (texto, imagens, áudio, etc.) e saída (geração de texto, desenho, etc.) usando uma única arquitetura Transformer e um formato de sequência unificado.

📖

termos

Patch Embedding Visual

Técnica popularizada por Vision Transformer (ViT) onde uma imagem é dividida em uma grade de patches não sobrepostos, cada um sendo então linearizado e projetado em um vetor de embedding para ser tratado como um token.

📖

termos

Pré-treinamento Multitarefa Multimodal

Estratégia de pré-treinamento onde o modelo é otimizado simultaneamente em múltiplos objetivos provenientes de diferentes modalidades (ex: mascaramento de linguagem, previsão de imagem, alinhamento áudio-texto) para aprender representações robustas.

Glossário IA

Transformer Multimodal

Espaço de Representação Unificado

Modelo de Visão-Linguagem (VLM)

ALBEF (Align Before Fuse)

Embedding Agnóstico à Modalidade

Modelo de Fundação Multimodal

Unified-IO

Patch Embedding Visual

Pré-treinamento Multitarefa Multimodal

Nenhum resultado encontrado