QA Multimodal
Grounding Visuel
Action d'ancrer des concepts linguistiques (mots, phrases) à des entités ou des régions spécifiques dans une image ou une vidéo, créant un lien sémantique tangible.
← Retour