Glosario IA
El diccionario completo de la Inteligencia Artificial
Poda de Red (Pruning)
Método que consiste en eliminar selectivamente los pesos o neuronas menos importantes de un modelo de difusión, creando una arquitectura más dispersa y eficiente con un impacto mínimo en el rendimiento.
Desruido Guiado por Clasificador
Estrategia de optimización que utiliza un modelo de clasificación externo para guiar el proceso de desruido, permitiendo alcanzar una calidad visual equivalente con menos pasos de desruido computacionalmente costosos.
Inferencia de Bajo Rango (Low-Rank)
Enfoque que aproxima las grandes matrices de peso del modelo mediante productos de matrices de menor rango, reduciendo drásticamente el número de parámetros y las operaciones de multiplicación matricial durante la inferencia.
Método del Acelerador (Accelerate Method)
Conjunto de técnicas destinadas a acelerar el proceso de difusión saltando pasos intermedios de desruido, a menudo utilizando modelos de regresión para predecir directamente los pasos futuros.
Optimización de Memoria mediante Gradient Checkpointing
Técnica de gestión de memoria que guarda selectivamente las activaciones intermedias durante la retropropagación, recalculándolas según sea necesario para intercambiar un uso reducido de RAM por un ligero aumento del tiempo de cálculo.
Mezcla de Expertos (Mixture of Experts - MoE)
Arquitectura de modelo donde múltiples 'expertos' (subredes) se activan de manera condicional, permitiendo un aumento de la capacidad del modelo sin un aumento proporcional de los costos computacionales para una sola inferencia.
Destilación de Paso de Tiempo (Time-step Distillation)
Forma de destilación donde un modelo estudiante aprende a generar resultados de alta calidad utilizando menos pasos de desruido que el modelo profesor, acelerando así directamente el proceso de generación.
Reparametrización Estocástica Eficiente
Optimización del ruido y desruido que utiliza parámetros reparametrizados para reducir la varianza y el número de muestras necesarias, haciendo cada paso de difusión más estable y menos costoso.
Caché de Características (Feature Caching)
Estrategia de memorización de mapas de características intermedias para condiciones de entrada recurrentes (ej: texto), evitando su recálculo en cada etapa de desruido y reduciendo así la carga computacional global.
Despliegue en Unidad de Procesamiento Tensorial (TPU)
Adaptación de la arquitectura de modelos de difusión para aprovechar las operaciones matriciales masivamente paralelas de las TPUs, optimizando los flujos de datos y los núcleos de cálculo para una inferencia a muy alta velocidad.
Compromiso Calidad-Velocidad por Scheduler
Uso de diferentes planificadores de ruido (ej: DDIM, DPM-Solver) que permiten controlar el número de etapas de desruido, ofreciendo un ajuste fino entre la calidad de la imagen y la velocidad de generación.
Fusión de Núcleos de Convolución
Técnica de optimización que combina capas de convolución sucesivas (ej: Conv + BatchNorm + ReLU) en una sola operación de convolución, reduciendo la latencia y el acceso a memoria en el hardware de inferencia.
Modelo de Difusión Latente Consistente (Consistency Latent Diffusion)
Variante de modelo entrenado para mapear cualquier punto en la trayectoria de ruido directamente al origen de los datos, permitiendo una generación en una sola etapa o muy pocas etapas, revolucionando la eficiencia computacional.
Optimización por Búsqueda de Cuadrícula de Hiperparámetros
Proceso de exploración sistemática de configuraciones de hiperparámetros (ej: tasa de aprendizaje, número de cabezas de atención) para identificar el modelo más performante en términos de relación calidad/costo computacional.
Inferencia Asíncrona por Pipeline
Arquitectura de despliegue donde las etapas de desruido se procesan en paralelo en diferentes unidades de cálculo, ocultando la latencia y aumentando el rendimiento de procesamiento para aplicaciones de difusión en tiempo real.