Transformers Multimodaux
ALIGN
Modèle contrastif image-texte entraîné sur un milliard de paires bruitées filtrées automatiquement. Démontre que la quantité de données peut compenser le bruit dans l'apprentissage multimodal à grande échelle.
← Retour