Vision Transformers для обнаружения
Cross-Attention для детекции
Двунаправленный механизм, в котором объектные запросы взаимодействуют с признаками изображения для одновременной локализации и классификации объектов.
← Назад