Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Élagage de Réseau (Pruning)
Méthode consistant à supprimer de manière sélective les poids ou les neurones les moins importants d'un modèle de diffusion, créant une architecture plus éparse et efficace avec un impact minimal sur les performances.
Débruitage Guidé par le Classifieur
Stratégie d'optimisation qui utilise un modèle de classification externe pour guider le processus de débruitage, permettant d'atteindre une qualité visuelle équivalente avec moins d'étapes de débruitage computationnellement coûteuses.
Inférence à Faible Rang (Low-Rank)
Approche qui approxime les grandes matrices de poids du modèle par des produits de matrices de plus faible rang, réduisant drastiquement le nombre de paramètres et les opérations de multiplication matricielle lors de l'inférence.
Méthode de l'Accélérateur (Accelerate Method)
Ensemble de techniques visant à accélérer le processus de diffusion en sautant des étapes intermédiaires de débruitage, souvent en utilisant des modèles de régression pour prédire directement les étapes futures.
Optimisation de la Mémoire par Gradient Checkpointing
Technique de gestion de la mémoire qui sauvegarde sélectivement les activations intermédiaires lors de la rétropropagation, les recalculant au besoin pour échanger une utilisation RAM réduite contre une légère augmentation du temps de calcul.
Mélange d'Experts (Mixture of Experts - MoE)
Architecture de modèle où plusieurs 'experts' (sous-réseaux) sont activés de manière conditionnelle, permettant une augmentation de la capacité du modèle sans augmentation proportionnelle des coûts computationnels pour une seule inférence.
Distillation de Pas de Temps (Time-step Distillation)
Forme de distillation où un modèle élève apprend à générer des résultats de haute qualité en utilisant moins de pas de débruitage que le modèle enseignant, accélérant ainsi directement le processus de génération.
Reparamétrisation Stochastique Efficace
Optimisation du bruitage et du débruitage qui utilise des paramètres reparamétrisés pour réduire la variance et le nombre d'échantillons nécessaires, rendant chaque étape de diffusion plus stable et moins coûteuse.
Cache de Caractéristiques (Feature Caching)
Stratégie de mémorisation des cartes de caractéristiques intermédiaires pour des conditions d'entrée récurrentes (ex: texte), évitant leur recalcul à chaque étape de débruitage et réduisant ainsi la charge computationnelle globale.
Déploiement sur Unité de Traitement Tensoriel (TPU)
Adaptation de l'architecture des modèles de diffusion pour tirer parti des opérations matricielles massivement parallèles des TPUs, optimisant les flux de données et les noyaux de calcul pour une inférence à très haute vitesse.
Compromis Qualité-Vitesse par Scheduler
Utilisation de différents ordonnanceurs de bruit (ex: DDIM, DPM-Solver) qui permettent de contrôler le nombre d'étapes de débruitage, offrant un réglage fin entre la qualité de l'image et la vitesse de génération.
Fusion de Noyaux de Convolution
Technique d'optimisation qui combine des couches de convolution successives (ex: Conv + BatchNorm + ReLU) en une seule opération de convolution, réduisant la latence et l'accès mémoire sur les matériel d'inférence.
Modèle de Diffusion Latent Consistant (Consistency Latent Diffusion)
Variante de modèle entraîné à mapper n'importe quel point sur la trajectoire de bruit directement à l'origine de la donnée, permettant une génération en une seule étape ou très peu d'étapes, révolutionnant l'efficacité computationnelle.
Optimisation par Recherche de Grille d'Hyperparamètres
Processus d'exploration systématique des configurations d'hyperparamètres (ex: taux d'apprentissage, nombre de têtes d'attention) pour identifier le modèle le plus performant en termes de rapport qualité/coût computationnel.
Inférence Asynchrone par Pipeline
Architecture de déploiement où les étapes de débruitage sont traitées en parallèle sur différentes unités de calcul, masquant la latence et augmentant le débit de traitement pour les applications de diffusion en temps réel.