QA Multimodal
Raisonnement Visuel
Capacité d'un système QA à déduire des informations non explicites en analysant les relations spatiales, les attributs d'objets ou les scènes complexes dans une image.
← Retour