🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Vision Transformer (ViT)

Architecture neuronale appliquant les mécanismes Transformer au traitement d'images en divisant les images en séquences de patches pour un traitement séquentiel.

📖
termes

Patch Embedding

Processus de conversion des patches d'images en vecteurs d'embeddings de dimension fixe par projection linéaire pour alimenter le Transformer.

📖
termes

Class Token

Token spécial ajouté à la séquence d'embeddings dont la représentation finale après passage dans le Transformer sert à la classification de l'image.

📖
termes

Multi-Head Self-Attention

Mécanisme permettant au modèle de calculer simultanément plusieurs représentations d'attention pour capturer différentes relations entre les patches d'image.

📖
termes

Transformer Encoder

Bloc fondamental composé de couches de self-attention et de réseaux feed-forward alternant avec normalisation et connexions résiduelles.

📖
termes

Image Patch Tokenization

Processus de découpage d'une image en patches non chevauchants de taille fixe typiquement 16x16 pixels convertis ensuite en tokens séquentiels.

📖
termes

Attention Map Visualization

Technique d'interprétabilité visualisant les poids d'attention entre patches pour comprendre les régions d'image sur lesquelles le modèle se concentre.

📖
termes

Pre-training on Large Datasets

Phase d'entraînement initial sur des millions d'images comme ImageNet-21k pour apprendre des représentations visuelles générales avant fine-tuning.

📖
termes

Patch Size Hyperparameter

Paramètre crucial définissant la dimension des patches d'images influençant directement la complexité computationnelle et les performances du modèle.

📖
termes

Token-to-Patch Reconstruction

Processus inverse dans les tâches génératives où les tokens sont reconvertis en patches image pour reconstruire l'image originale.

📖
termes

Hierarchical Vision Transformer

Variante de ViT utilisant une structure pyramidale avec des tailles de patches variables pour capturer des caractéristiques multi-échelles.

📖
termes

Self-Supervised ViT Pre-training

Méthodes d'entraînement non supervisé comme DINO ou MAE exploitant la structure Transformer pour apprendre sans annotations.

📖
termes

Cross-Attention in Multi-Modal ViT

Mécanisme étendant ViT pour traiter conjointement images et texte en utilisant l'attention entre modalités différentes.

📖
termes

Computational Complexity O(n²)

Complexité quadratique du self-attention par rapport au nombre de patches constituant la limitation principale des Vision Transformers.

🔍

Aucun résultat trouvé