Multi-Modal Transformers
GIT
Modèle Generative Image-to-text Transformer traitant les images comme une langue étrangère et utilisant une simple architecture encoder-decoder pour la description d'images et le VQA avec des performances state-of-the-art.
← Retour