Transformers Multimodaux
ALBEF (Align Before Fuse)
Architecture innovante qui aligne d'abord les représentations texte-image dans un espace partagé avant de les fusionner, utilisant un momentum distillation pour améliorer la performance.
← Quay lại