QA Multimodal
Transformer Visão-Linguagem (VLT)
Arquitetura Transformer pré-treinada em vastos corpora de imagens e textos pareados, projetada para tarefas de compreensão e geração multimodais.
← Voltar