Multimodal Learning
Correspondance Globale-locale
Alignement simultané entre représentations globales (image entière-texte complet) et correspondances locales (régions-mots) pour un mapping précis.
← Geri