Modelos de Difusión Latente

📖

términos

Modelo de Difusión Latente

Arquitectura de difusión que opera en un espacio latente de menor dimensión, obtenido mediante un autoencoder, para reducir significativamente los costos computacionales manteniendo una alta calidad de generación de imágenes.

📖

términos

Codificador Perceptual

Parte del autoencoder en un LDM que transforma una imagen de alta dimensión (píxeles) en una representación de baja dimensión (latente), capturando la información semántica esencial.

📖

términos

Condicionamiento Cruzado (Cross-Attention)

Mecanismo de atención que permite al modelo de difusión latente integrar información heterogénea, como texto (embeddings CLIP), para guiar la generación de imágenes de manera flexible y precisa.

📖

términos

Planificador de Ruido

Algoritmo que define la varianza del ruido añadido en cada paso de tiempo del proceso forward, influyendo en la velocidad de convergencia y la calidad final de la generación en los LDM.

📖

términos

Regresión de Ruido (Denoising)

Tarea principal del modelo de difusión U-Net, que consiste en predecir el ruido añadido a un latente en un paso de tiempo dado, permitiendo restarlo para eliminar progresivamente el ruido de la señal.

📖

términos

U-Net Jerárquico

Arquitectura de red neuronal en forma de U, con conexiones residuales y mecanismos de atención, utilizada como núcleo del modelo de difusión para predecir el ruido en cada etapa de eliminación de ruido.

📖

términos

Guía sin Clasificador (CFG)

Método de condicionamiento que utiliza el gradiente de la log-probabilidad del propio modelo para aumentar la adherencia al prompt, evitando la necesidad de un clasificador externo y mejorando la fidelidad al texto.

📖

términos

Stable Diffusion

Implementación famosa y de código abierto de la arquitectura de modelo de difusión latente, que combina un VAE, un U-Net y un condicionamiento por texto mediante CLIP para una generación de imágenes accesible y eficiente.

📖

términos

Emparejamiento de Puntuación Estocástico (SDE)

Marco teórico alternativo para los modelos de difusión, que los interpreta como la resolución de una ecuación diferencial estocástica para aprender el gradiente de densidad de datos (puntuación).

📖

términos

Remuestreo Latente (Latent Resampling)

Técnica de inferencia que modifica dinámicamente la trayectoria de eliminación de ruido en el espacio latente para mejorar la coherencia y la calidad de las generaciones, ajustando los pasos de tiempo o la guía.

📖

términos

Destilación de Tiempo

Proceso de compresión de modelo donde un modelo de difusión grande y lento se utiliza para entrenar un modelo más pequeño y rápido, capaz de generar imágenes de calidad comparable en menos pasos de eliminación de ruido.

📖

términos

Eliminación de Ruido Consistente

Familia de métodos de inferencia que resuelven una ecuación diferencial ordinaria (ODE) para aproximar el proceso de eliminación de ruido, permitiendo generaciones de alta calidad en un solo paso o muy pocos pasos.

📖

términos

Tokenización de Prompt

Paso de preprocesamiento donde el texto de entrada se convierte en una secuencia de identificadores numéricos (tokens) que luego se transformarán en embeddings por el modelo de lenguaje (ej: CLIP) para el acondicionamiento.

📖

términos

Pérdida de Reconstrucción KL

Término de regularización en el entrenamiento del VAE de un LDM, que mide la divergencia de Kullback-Leibler entre la distribución latente aprendida y una distribución a priori (típicamente una gaussiana estándar).

📖

términos

Espacio de Embedding de Texto

Espacio vectorial de alta dimensión donde los textos (prompts) se representan en forma de embeddings, sirviendo de acondicionamiento al modelo de difusión a través del mecanismo de atención cruzada.

Glosario IA

Modelo de Difusión Latente

Codificador Perceptual

Condicionamiento Cruzado (Cross-Attention)

Planificador de Ruido

Regresión de Ruido (Denoising)

U-Net Jerárquico

Guía sin Clasificador (CFG)

Stable Diffusion

Emparejamiento de Puntuación Estocástico (SDE)

Remuestreo Latente (Latent Resampling)

Destilación de Tiempo

Eliminación de Ruido Consistente

Tokenización de Prompt

Pérdida de Reconstrucción KL

Espacio de Embedding de Texto

No se encontraron resultados