Multi-Modal Transformers
Flamingo Model
Modèle vision-langage de 80 milliards de paramètres utilisant des adapters pré-entraînés et un attentional gating pour combiner efficacement Vision Transformers et modèles de langage sans ré-entraînement complet.
← 返回