Мультимодальные трансформеры
Vision-Language Transformer
Architecture Transformer spécifiquement conçue pour comprendre et générer conjointement du contenu visuel et textuel, utilisant des encodeurs partagés ou séparés pour chaque modalité.
← Назад