视觉Transformer - AI 术语表

📖

个术语

MLP Head

Module de classification final composé généralement d'une couche entièrement connectée avec activation, suivi d'une couche de sortie pour les prédictions de classes. Le MLP Head traite la représentation finale du Class Token pour générer les scores de classification pour chaque classe possible.

📖

个术语

Patch Size

Dimension spatiale des carrés dans lesquels l'image d'entrée est divisée, typiquement 16x16 ou 32x32 pixels pour les architectures ViT standard. La taille des patches influence directement le nombre de tokens générés et la granularité des informations spatiales préservées par le modèle.

📖

个术语

Image Tokenization

Processus de conversion d'une image 2D en une séquence de tokens 1D traitables par les Transformers, impliquant la segmentation en patches et la projection linéaire. Cette tokenisation est l'étape cruciale qui permet d'adapter l'architecture Transformer, initialement conçue pour le texte, au domaine de la vision.

📖

个术语

Scale-Invariant Features

Caractéristiques extraites par les Vision Transformers qui restent robustes face aux changements d'échelle des objets dans les images. Ces propriétés émergent naturellement de l'architecture globale des Transformers grâce à leur capacité à modéliser des relations à longue distance entre patches.

📖

个术语

Token-to-Token ViT (T2T-ViT)

Variante du Vision Transformer qui utilise un processus de tokenisation itératif pour transformer progressivement les patches en tokens plus informatifs. Cette approche permet une meilleure modélisation de la structure locale et une réduction progressive de la résolution spatiale, améliorant ainsi l'efficacité computationnelle.

📖

个术语

Pyramid Vision Transformer (PVT)

Architecture Transformer hiérarchique qui génère des cartes de caractéristiques à différentes échelles, similaire aux pyramides de caractéristiques des CNNs. Le PVT est particulièrement adapté pour les tâches de vision dense comme la segmentation sémantique et la détection d'objets qui nécessitent des représentations multi-échelles.

📖

个术语

Swin Transformer

Architecture Transformer hiérarchique avec des fenêtres d'attention décalées qui permet une modélisation efficace des relations locales et globales avec une complexité linéaire. Le Swin Transformer introduit des connexions multi-échelles et a démontré des performances exceptionnelles sur un large éventail de tâches de vision.

📖

个术语

DeiT (Data-efficient Image Transformers)

Variante de Vision Transformer entraînée avec des stratégies de distillation de connaissances pour atteindre des performances compétitives avec moins de données d'entraînement. DeiT introduit un token de distillation supplémentaire qui apprend à partir des prédictions d'un enseignant CNN, réduisant ainsi l'écart de performance avec les approches basées sur des données massives.

📖

个术语

Masked Autoencoders (MAE)

一种自监督预训练方法，其中视觉Transformer通过从剩余的可见图像块重建被掩蔽的图像块来学习。这种简单而有效的方法在预训练中达到了最先进的性能，同时计算资源消耗极低。

AI 词汇表