Transformers Multimodaux
Oscar (Object-Semantics Aligned Pre-training)
Approche de pré-entraînement qui introduit des étiquettes d'objets détectés comme ancrages sémantiques pour aligner texte et images, améliorant significativement la compréhension multimodale.
← Volver