Мультимодальный перевод
Визуальное ответы на вопросы
Система, которая отвечает на текстовые вопросы о содержании изображений, требующая совместного понимания зрения и языка. VQA сочетает обнаружение объектов, пространственное рассуждение и лингвистическое понимание.
← Назад