AI-ordlista
Den kompletta ordlistan över AI
Masked Image Modeling (MIM)
Technique d'apprentissage auto-supervisé où des parties d'images sont masquées et le modèle apprend à les reconstruire en utilisant uniquement le contexte visuel environnant.
Vision Transformer (ViT)
Architecture neuronale qui applique les mécanismes d'attention des Transformers aux images en les divisant en patches séquentiels pour le traitement.
Mask Token
Token spécial utilisé dans MIM pour indiquer les positions masquées que le modèle doit prédire, similaire au [MASK] en NLP.
Token Prediction
Tâche fondamentale de prédire les tokens visuels manquants basée sur les tokens visuels contextuels non masqués dans l'image.
Contextual Learning
Capacité du modèle à comprendre les relations spatiales et sémantiques entre les patches d'image pour améliorer la prédiction des régions masquées.
Patch Masking Strategy
Stratégie définissant quelles régions de l'image masquer (pourcentage, distribution spatiale) pour optimiser l'apprentissage des représentations.
Visual Context
Ensemble des informations visuelles environnantes utilisées pour inférer le contenu des régions masquées dans une image.
Downstream Task
Tâche spécifique (classification, segmentation, détection) où les représentations apprises via MIM sont appliquées après le pré-entraînement.