Transformers Multimodais
ALBEF (Align Before Fuse)
Modelo visão-linguagem que utiliza pré-treinamento contrastivo para alinhar as representações de texto e imagem antes de fundi-las através de camadas Transformer de co-atenção, melhorando a qualidade da interação.
← Voltar