Glossário IA
O dicionário completo da Inteligência Artificial
ALBEF (Align Before Fuse)
Arquitetura inovadora que primeiro alinha as representações texto-imagem em um espaço compartilhado antes de fundi-las, utilizando destilação de momentum para melhorar o desempenho.
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
Arquitetura de detecção de objetos end-to-end modulada pela linguagem natural, permitindo consultas textuais complexas para localizar e identificar objetos em imagens.
UNITER (UNiversal Image-TExt Representation)
Modelo pré-treinado em 4 grandes tarefas multimodais (correspondência imagem-texto, modelagem de linguagem mascarada, modelagem de região mascarada, correspondência palavra-região) para uma compreensão universal visão-linguagem.
VILLA (Vision-and-Language Large-scale model)
Modelo em larga escala pré-treinado com uma arquitetura Transformer unificada para tarefas de compreensão visão-linguagem, utilizando pré-treinamentos mascarados cruzados.
FLAVA (Foundational Language and Vision Alignment)
Modelo fundacional multimodal unificado com uma arquitetura Transformer simples, pré-treinado simultaneamente em dados apenas de texto, apenas de imagem e multimodais.
Oscar (Object-Semantics Aligned Pre-training)
Abordagem de pré-treinamento que introduz rótulos de objetos detectados como âncoras semânticas para alinhar texto e imagens, melhorando significativamente a compreensão multimodal.
VinVL (Vision and Language Pre-training with enhanced Visual features)
Framework que aprimora as características visuais com um detector de objetos em larga escala e atributos, alcançando desempenho de ponta nos benchmarks V+L.
BridgeTower
Arquitetura que introduz pontes entre os codificadores unimodais para facilitar a interação profunda entre modalidades, otimizando a troca de informações texto-imagem em diferentes escalas.
Pix2Struct
Modelo Transformer pré-treinado na tarefa de análise de capturas de tela, excelente na compreensão de interfaces de usuário, diagramas e documentos visualmente estruturados.
PaLI (Pathways Language and Image model)
Modelo multimodal massivo baseado em Pathways, combinando um codificador de imagem e um codificador-decodificador de texto para tarefas de tradução visual e resposta visual a perguntas.