Transformadores Multi-Modais
GIT
Modelo Generative Image-to-text Transformer que trata imagens como uma língua estrangeira e utiliza uma arquitetura simples codificador-decodificador para descrição de imagens e VQA com desempenho state-of-the-art.
← Voltar