Vision Transformers (ViT)
Оконное самовнимание
Механизм внимания, где вычисления ограничены локальными окнами патчей, уменьшая квадратичную сложность стандартного MHSA для изображений высокого разрешения.
← Назад