Modèles de Diffusion Latente

📖

termes

Modèle de Diffusion Latente

Architecture de diffusion qui opère dans un espace latent de plus faible dimension, obtenu via un auto-encodeur, pour réduire significativement les coûts computationnels tout en maintenant une haute qualité de génération d'images.

📖

termes

Encodeur Perceptuel

Partie de l'auto-encodeur dans un LDM qui transforme une image de haute dimension (pixels) en une représentation de faible dimension (latent), capturant les informations sémantiques essentielles.

📖

termes

Conditionnement Croisé (Cross-Attention)

Mécanisme d'attention qui permet au modèle de diffusion latent d'intégrer des informations hétérogènes, comme du texte (embeddings CLIP), pour guider la génération d'images de manière flexible et précise.

📖

termes

Scheduler de Bruit

Algorithme définissant la variance du bruit ajouté à chaque pas de temps du processus forward, influençant la vitesse de convergence et la qualité finale de la génération dans les LDM.

📖

termes

Régression de Bruit (Denoising)

Tâche principale du modèle de diffusion U-Net, qui consiste à prédire le bruit ajouté à un latent à un pas de temps donné, permettant de le soustraire pour progressivement débruité le signal.

📖

termes

U-Net Hiérarchique

Architecture de réseau neuronal en forme de U, avec des connexions résiduelles et des mécanismes d'attention, utilisée comme cœur du modèle de diffusion pour prédire le bruit à chaque étape de débruitage.

📖

termes

Guidance Sans Classifier (CFG)

Méthode de conditionnement qui utilise le gradient du log-probabilité du modèle lui-même pour augmenter l'adhésion au prompt, évitant le besoin d'un classificateur externe et améliorant la fidélité au texte.

📖

termes

Stable Diffusion

Implémentation célèbre et open-source de l'architecture de modèle de diffusion latent, combinant un VAE, un U-Net et un conditionnement par texte via CLIP pour une génération d'images accessible et performante.

📖

termes

Score Matching Stochastique (SDE)

Cadre théorique alternatif pour les modèles de diffusion, qui les interprète comme la résolution d'une équation différentielle stochastique pour apprendre le gradient de densité de données (score).

📖

termes

Rééchantillonnage Latent (Latent Resampling)

Technique d'inférence qui modifie dynamiquement la trajectoire de débruitage dans l'espace latent pour améliorer la cohérence et la qualité des générations, en ajustant les pas de temps ou la guidance.

📖

termes

Distillation de Temps

Processus de compression de modèle où un grand modèle de diffusion lent est utilisé pour entraîner un modèle plus petit et plus rapide, capable de générer des images de qualité comparable en moins d'étapes de débruitage.

📖

termes

Débruitage Consistant

Famille de méthodes d'inférence qui résolvent une équation différentielle ordinaire (ODE) pour approximer le processus de débruitage, permettant des générations de haute qualité en un seul pas ou très peu de pas.

📖

termes

Tokenisation de Prompt

Étape de prétraitement où le texte d'entrée est converti en une séquence d'identifiants numériques (tokens) qui seront ensuite transformés en embeddings par le modèle de langage (ex: CLIP) pour le conditionnement.

📖

termes

Perte de Reconstruction KL

Terme de régularisation dans l'entraînement du VAE d'un LDM, mesurant la divergence de Kullback-Leibler entre la distribution latente apprise et une distribution a priori (typiquement une gaussienne standard).

📖

termes

Espace d'Embedding Textuel

Espace vectoriel de haute dimension où les textes (prompts) sont représentés sous forme d'embeddings, servant de conditionnement au modèle de diffusion via le mécanisme d'attention croisée.

Glossaire IA

Modèle de Diffusion Latente

Encodeur Perceptuel

Conditionnement Croisé (Cross-Attention)

Scheduler de Bruit

Régression de Bruit (Denoising)

U-Net Hiérarchique

Guidance Sans Classifier (CFG)

Stable Diffusion

Score Matching Stochastique (SDE)

Rééchantillonnage Latent (Latent Resampling)

Distillation de Temps

Débruitage Consistant

Tokenisation de Prompt

Perte de Reconstruction KL

Espace d'Embedding Textuel

Aucun résultat trouvé