Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Modèle de Diffusion Latente
Architecture de diffusion qui opère dans un espace latent de plus faible dimension, obtenu via un auto-encodeur, pour réduire significativement les coûts computationnels tout en maintenant une haute qualité de génération d'images.
Encodeur Perceptuel
Partie de l'auto-encodeur dans un LDM qui transforme une image de haute dimension (pixels) en une représentation de faible dimension (latent), capturant les informations sémantiques essentielles.
Conditionnement Croisé (Cross-Attention)
Mécanisme d'attention qui permet au modèle de diffusion latent d'intégrer des informations hétérogènes, comme du texte (embeddings CLIP), pour guider la génération d'images de manière flexible et précise.
Scheduler de Bruit
Algorithme définissant la variance du bruit ajouté à chaque pas de temps du processus forward, influençant la vitesse de convergence et la qualité finale de la génération dans les LDM.
Régression de Bruit (Denoising)
Tâche principale du modèle de diffusion U-Net, qui consiste à prédire le bruit ajouté à un latent à un pas de temps donné, permettant de le soustraire pour progressivement débruité le signal.
U-Net Hiérarchique
Architecture de réseau neuronal en forme de U, avec des connexions résiduelles et des mécanismes d'attention, utilisée comme cœur du modèle de diffusion pour prédire le bruit à chaque étape de débruitage.
Guidance Sans Classifier (CFG)
Méthode de conditionnement qui utilise le gradient du log-probabilité du modèle lui-même pour augmenter l'adhésion au prompt, évitant le besoin d'un classificateur externe et améliorant la fidélité au texte.
Stable Diffusion
Implémentation célèbre et open-source de l'architecture de modèle de diffusion latent, combinant un VAE, un U-Net et un conditionnement par texte via CLIP pour une génération d'images accessible et performante.
Score Matching Stochastique (SDE)
Cadre théorique alternatif pour les modèles de diffusion, qui les interprète comme la résolution d'une équation différentielle stochastique pour apprendre le gradient de densité de données (score).
Rééchantillonnage Latent (Latent Resampling)
Technique d'inférence qui modifie dynamiquement la trajectoire de débruitage dans l'espace latent pour améliorer la cohérence et la qualité des générations, en ajustant les pas de temps ou la guidance.
Distillation de Temps
Processus de compression de modèle où un grand modèle de diffusion lent est utilisé pour entraîner un modèle plus petit et plus rapide, capable de générer des images de qualité comparable en moins d'étapes de débruitage.
Débruitage Consistant
Famille de méthodes d'inférence qui résolvent une équation différentielle ordinaire (ODE) pour approximer le processus de débruitage, permettant des générations de haute qualité en un seul pas ou très peu de pas.
Tokenisation de Prompt
Étape de prétraitement où le texte d'entrée est converti en une séquence d'identifiants numériques (tokens) qui seront ensuite transformés en embeddings par le modèle de langage (ex: CLIP) pour le conditionnement.
Perte de Reconstruction KL
Terme de régularisation dans l'entraînement du VAE d'un LDM, mesurant la divergence de Kullback-Leibler entre la distribution latente apprise et une distribution a priori (typiquement une gaussienne standard).
Espace d'Embedding Textuel
Espace vectoriel de haute dimension où les textes (prompts) sont représentés sous forme d'embeddings, servant de conditionnement au modèle de diffusion via le mécanisme d'attention croisée.