Глоссарий ИИ
Полный словарь искусственного интеллекта
Modèle de Diffusion Latente
Architecture de diffusion qui opère dans un espace latent de plus faible dimension, obtenu via un auto-encodeur, pour réduire significativement les coûts computationnels tout en maintenant une haute qualité de génération d'images.
Encodeur Perceptuel
Partie de l'auto-encodeur dans un LDM qui transforme une image de haute dimension (pixels) en une représentation de faible dimension (latent), capturant les informations sémantiques essentielles.
Conditionnement Croisé (Cross-Attention)
Mécanisme d'attention qui permet au modèle de diffusion latent d'intégrer des informations hétérogènes, comme du texte (embeddings CLIP), pour guider la génération d'images de manière flexible et précise.
Scheduler de Bruit
Algorithme définissant la variance du bruit ajouté à chaque pas de temps du processus forward, influençant la vitesse de convergence et la qualité finale de la génération dans les LDM.
Régression de Bruit (Denoising)
Tâche principale du modèle de diffusion U-Net, qui consiste à prédire le bruit ajouté à un latent à un pas de temps donné, permettant de le soustraire pour progressivement débruité le signal.
U-Net Hiérarchique
Architecture de réseau neuronal en forme de U, avec des connexions résiduelles et des mécanismes d'attention, utilisée comme cœur du modèle de diffusion pour prédire le bruit à chaque étape de débruitage.
Guidance Sans Classifier (CFG)
Méthode de conditionnement qui utilise le gradient du log-probabilité du modèle lui-même pour augmenter l'adhésion au prompt, évitant le besoin d'un classificateur externe et améliorant la fidélité au texte.
Stable Diffusion
Implémentation célèbre et open-source de l'architecture de modèle de diffusion latent, combinant un VAE, un U-Net et un conditionnement par texte via CLIP pour une génération d'images accessible et performante.
Стохастическое согласование оценок (SDE)
Альтернативная теоретическая основа для моделей диффузии, которая интерпретирует их как решение стохастического дифференциального уравнения для изучения градиента плотности данных (оценка).
Латентное повторное дискретирование
Метод вывода, который динамически изменяет траекторию денуазинга в латентном пространстве для улучшения согласованности и качества генераций, корректируя временные шаги или руководство.
Дистилляция времени
Процесс сжатия модели, при котором большая медленная модель диффузии используется для обучения меньшей и более быстрой модели, способной генерировать изображения сопоставимого качества за меньшее количество шагов денуазинга.
Согласованный денуазинг
Семейство методов вывода, которые решают обыкновенное дифференциальное уравнение (ODE) для аппроксимации процесса денуазинга, позволяя генерации высокого качества за один шаг или очень мало шагов.
Токенизация промпта
Этап предварительной обработки, при котором входной текст преобразуется в последовательность числовых идентификаторов (токенов), которые затем будут преобразованы в эмбеддинги языковой моделью (например, CLIP) для кондиционирования.
Потеря KL-реконструкции
Член регуляризации в обучении VAE в LDM, измеряющий расхождение Кульбака-Лейблера между изученной латентной дистрибуцией и априорной дистрибуцией (обычно стандартным гауссианом).
Пространство текстовых эмбеддингов
Пространство векторов высокой размерности, где тексты (промпты) представлены в виде эмбеддингов, служащих кондиционированием для модели диффузии через механизм перекрестного внимания.