Vision Transformers для обнаружения
Визуальное Self-Attention
Механизм, позволяющий каждому патчу изображения оценивать свою относительную важность по отношению ко всем другим патчам для захвата глобальных зависимостей без свертки.
← Назад