Transformers Multimodais

📖

termos

ALBEF (Align Before Fuse)

Arquitetura inovadora que primeiro alinha as representações texto-imagem em um espaço compartilhado antes de fundi-las, utilizando destilação de momentum para melhorar o desempenho.

📖

termos

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Arquitetura de detecção de objetos end-to-end modulada pela linguagem natural, permitindo consultas textuais complexas para localizar e identificar objetos em imagens.

📖

termos

UNITER (UNiversal Image-TExt Representation)

Modelo pré-treinado em 4 grandes tarefas multimodais (correspondência imagem-texto, modelagem de linguagem mascarada, modelagem de região mascarada, correspondência palavra-região) para uma compreensão universal visão-linguagem.

📖

termos

VILLA (Vision-and-Language Large-scale model)

Modelo em larga escala pré-treinado com uma arquitetura Transformer unificada para tarefas de compreensão visão-linguagem, utilizando pré-treinamentos mascarados cruzados.

📖

termos

FLAVA (Foundational Language and Vision Alignment)

Modelo fundacional multimodal unificado com uma arquitetura Transformer simples, pré-treinado simultaneamente em dados apenas de texto, apenas de imagem e multimodais.

📖

termos

Oscar (Object-Semantics Aligned Pre-training)

Abordagem de pré-treinamento que introduz rótulos de objetos detectados como âncoras semânticas para alinhar texto e imagens, melhorando significativamente a compreensão multimodal.

📖

termos

VinVL (Vision and Language Pre-training with enhanced Visual features)

Framework que aprimora as características visuais com um detector de objetos em larga escala e atributos, alcançando desempenho de ponta nos benchmarks V+L.

📖

termos

BridgeTower

Arquitetura que introduz pontes entre os codificadores unimodais para facilitar a interação profunda entre modalidades, otimizando a troca de informações texto-imagem em diferentes escalas.

📖

termos

Pix2Struct

Modelo Transformer pré-treinado na tarefa de análise de capturas de tela, excelente na compreensão de interfaces de usuário, diagramas e documentos visualmente estruturados.

📖

termos

PaLI (Pathways Language and Image model)

Modelo multimodal massivo baseado em Pathways, combinando um codificador de imagem e um codificador-decodificador de texto para tarefas de tradução visual e resposta visual a perguntas.

Glossário IA

ALBEF (Align Before Fuse)

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

UNITER (UNiversal Image-TExt Representation)

VILLA (Vision-and-Language Large-scale model)

FLAVA (Foundational Language and Vision Alignment)

Oscar (Object-Semantics Aligned Pre-training)

VinVL (Vision and Language Pre-training with enhanced Visual features)

BridgeTower

Pix2Struct

PaLI (Pathways Language and Image model)

Nenhum resultado encontrado