Transformers Multimodaux
BridgeTower
Architecture introduisant des ponts entre les encoders unimodaux pour faciliter l'interaction profonde entre modalités, optimisant l'échange d'informations texte-image à différentes échelles.
← Volver