Мультимодальные трансформеры
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
Архитектура сквозного обнаружения объектов, модулируемая естественным языком, позволяющая выполнять сложные текстовые запросы для локализации и идентификации объектов на изображениях.
← Назад