Vision Transformers (ViT)
Patch Merging
Opération dans les transformers hiérarchiques qui combine des groupes de 2x2 patches adjacents pour créer des tokens de résolution inférieure, augmentant ainsi la profondeur et le champ réceptif.
← Retour