Transformers Multimodaux
VinVL (Vision and Language Pre-training with enhanced Visual features)
Framework améliorant les caractéristiques visuelles avec un détecteur d'objets à grande échelle et des attributs, atteignant des performances state-of-the-art sur les benchmarks V+L.
← Zurück