Мультимодальные трансформеры
Unified Encoder-Decoder
Architecture Transformer où le même encodeur traite toutes les modalités d'entrée, et un décodeur génère la sortie, permettant des tâches comme VQA, captioning et retrieval avec un seul modèle.
← Назад