KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Vision Transformers (ViT)
Architecture neuronale qui applique les transformeurs originellement conçus pour le NLP aux tâches de vision en divisant les images en patches séquentiels.
Rotation Prediction
Tâche prétexte où le modèle doit prédire l'angle de rotation appliqué à une image, apprenant ainsi des représentations sensibles à l'orientation spatiale.
Jigsaw Puzzle Solving
Méthode prétexte qui consiste à diviser une image en patches et à entraîner le modèle à réassembler les pièces dans le bon ordre spatial.
SwAV
Swapped Prediction, méthode combinant apprentissage contrastif et clustering online pour assigner des représentations cohérentes entre différentes vues augmentées.
Masked Autoencoders (MAE)
Architecture auto-supervisée masquant un pourcentage élevé de patches d'images et reconstruisant uniquement les pixels manquants, non les patches visibles.
IBOT
Image BERT Pre-Training avec Online Tokenizer, combinant masked image modeling et distillation de connaissance pour des pré-entraînements robustes.
Data2Vec
Framework unifié d'apprentissage auto-supervisé pour vision, audio et texte basé sur la prédiction de représentations latentes plutôt que de pixels ou tokens.
Local-Global Contrastive Learning
Approche contrastive établissant des correspondances entre les caractéristiques locales et globales pour capturer des représentations multi-échelles cohérentes.
Cross-Correlation Matrix Optimization
Technique directly optimizing the cross-correlation matrix between augmented view representations to optimally align embeddings.