Transformers Multimodaux
VILLA (Vision-and-Language Large-scale model)
Modèle à grande échelle pré-entraîné avec une architecture Transformer unifiée pour les tâches de compréhension vision-langage, utilisant des pré-entraînements masqués croisés.
← Quay lại