Multi-Modal Transformers
BLIP
Framework Bootstrapping Language-Image Pre-training générant des pseudo-captions pour filtrer le bruit et améliorer la qualité des données, utilisant un encodeur multimodal et un décodeur image-texte.
← Retour