Transformers Multimodaux
Pré-entraînement Multitâche Multimodal
Stratégie de pré-entraînement où le modèle est optimisé simultanément sur plusieurs objectifs issus de différentes modalités (ex: masquage de langage, prédiction d'image, alignement audio-texte) pour apprendre des représentations robustes.
← Wstecz