KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Image Patches
Division d'une image en grilles régulières de petites sections carrées (typiquement 16x16 pixels) qui sont traitées comme des tokens séquentiels par le ViT.
Tokenization Visuelle
Processus de segmentation d'une image en séquence de tokens discrets, fondamental pour adapter l'architecture transformer conçue initialement pour le texte aux données visuelles.
DeiT (Data-efficient Image Transformer)
Variante de Vision Transformer entraînée avec des stratégies de distillation pour atteindre des performances compétitives avec moins de données d'entraînement.
Hierarchical Vision Transformers
Architectures transformer qui maintiennent des représentations multi-échelles de l'image, combinant les avantages des CNN traditionnels avec la flexibilité des transformers.
Layer Scaling
Technique de normalisation appliquée aux résidus dans les couches transformer pour stabiliser l'entraînement et améliorer la convergence des modèles profonds.
Cross-Attention Vision Transformer
Architecture utilisant des mécanismes d'attention croisée entre différentes modalités ou représentations, permettant des interactions plus riches entre features.
Window-based Self-Attention
Variante d'attention restreinte à des fenêtres locales而非 l'image complète, réduisant la complexité computationnelle tout en capturant les relations locales importantes.