Многомодальная интерпретируемость
Визуально-лингвистическая привязка (Grounding Visuo-Linguistique)
Процесс привязки лингвистических символов (слов, фраз) к конкретным объектам или концепциям в визуальных данных, который является основополагающим для того, чтобы объяснения модели, связывающей текст и изображение, были семантически корректными и понятными.
← Назад