Glosario IA
El diccionario completo de la Inteligencia Artificial
Modelo de Difusión Latente
Arquitectura de difusión que opera en un espacio latente de menor dimensión, obtenido mediante un autoencoder, para reducir significativamente los costos computacionales manteniendo una alta calidad de generación de imágenes.
Codificador Perceptual
Parte del autoencoder en un LDM que transforma una imagen de alta dimensión (píxeles) en una representación de baja dimensión (latente), capturando la información semántica esencial.
Condicionamiento Cruzado (Cross-Attention)
Mecanismo de atención que permite al modelo de difusión latente integrar información heterogénea, como texto (embeddings CLIP), para guiar la generación de imágenes de manera flexible y precisa.
Planificador de Ruido
Algoritmo que define la varianza del ruido añadido en cada paso de tiempo del proceso forward, influyendo en la velocidad de convergencia y la calidad final de la generación en los LDM.
Regresión de Ruido (Denoising)
Tarea principal del modelo de difusión U-Net, que consiste en predecir el ruido añadido a un latente en un paso de tiempo dado, permitiendo restarlo para eliminar progresivamente el ruido de la señal.
U-Net Jerárquico
Arquitectura de red neuronal en forma de U, con conexiones residuales y mecanismos de atención, utilizada como núcleo del modelo de difusión para predecir el ruido en cada etapa de eliminación de ruido.
Guía sin Clasificador (CFG)
Método de condicionamiento que utiliza el gradiente de la log-probabilidad del propio modelo para aumentar la adherencia al prompt, evitando la necesidad de un clasificador externo y mejorando la fidelidad al texto.
Stable Diffusion
Implementación famosa y de código abierto de la arquitectura de modelo de difusión latente, que combina un VAE, un U-Net y un condicionamiento por texto mediante CLIP para una generación de imágenes accesible y eficiente.
Emparejamiento de Puntuación Estocástico (SDE)
Marco teórico alternativo para los modelos de difusión, que los interpreta como la resolución de una ecuación diferencial estocástica para aprender el gradiente de densidad de datos (puntuación).
Remuestreo Latente (Latent Resampling)
Técnica de inferencia que modifica dinámicamente la trayectoria de eliminación de ruido en el espacio latente para mejorar la coherencia y la calidad de las generaciones, ajustando los pasos de tiempo o la guía.
Destilación de Tiempo
Proceso de compresión de modelo donde un modelo de difusión grande y lento se utiliza para entrenar un modelo más pequeño y rápido, capaz de generar imágenes de calidad comparable en menos pasos de eliminación de ruido.
Eliminación de Ruido Consistente
Familia de métodos de inferencia que resuelven una ecuación diferencial ordinaria (ODE) para aproximar el proceso de eliminación de ruido, permitiendo generaciones de alta calidad en un solo paso o muy pocos pasos.
Tokenización de Prompt
Paso de preprocesamiento donde el texto de entrada se convierte en una secuencia de identificadores numéricos (tokens) que luego se transformarán en embeddings por el modelo de lenguaje (ej: CLIP) para el acondicionamiento.
Pérdida de Reconstrucción KL
Término de regularización en el entrenamiento del VAE de un LDM, que mide la divergencia de Kullback-Leibler entre la distribución latente aprendida y una distribución a priori (típicamente una gaussiana estándar).
Espacio de Embedding de Texto
Espacio vectorial de alta dimensión donde los textos (prompts) se representan en forma de embeddings, sirviendo de acondicionamiento al modelo de difusión a través del mecanismo de atención cruzada.