Transformers Multimodais
ALBEF (Align Before Fuse)
Arquitetura inovadora que primeiro alinha as representações texto-imagem em um espaço compartilhado antes de fundi-las, utilizando destilação de momentum para melhorar o desempenho.
← Voltar