Vision Transformers (ViT)
Windowed Self-Attention
Mécanisme d'attention où les calculs sont restreints à des fenêtres locales de patches, réduisant la complexité quadratique du MHSA standard pour les images haute résolution.
← Indietro