Transformers Multimodaux
Flamingo
Modèle vision-langage qui adapte les transformers pré-entraînés existants avec des modules d'attention visuelle-linguistique. Permet le few-shot learning sur des tâches complexes de compréhension multimodale sans réentraînement complet.
← Volver