Transformers Multimodaux
ALBEF (Align Before Fuse)
Modèle vision-langage qui utilise un pré-entraînement contrastif pour aligner les représentations texte et image avant de les fusionner via des couches Transformer co-attentionnelles, améliorant la qualité de l'interaction.
← 뒤로