QA মাল্টিমোডাল
Grounding Visuel
Action d'ancrer des concepts linguistiques (mots, phrases) à des entités ou des régions spécifiques dans une image ou une vidéo, créant un lien sémantique tangible.
← ফিরে যান