Glosario IA
El diccionario completo de la Inteligencia Artificial
Modelo de Difusión de Video
Arquitectura de generación que aplica el proceso de difusión a datos espacio-temporales, añadiendo progresivamente ruido a las imágenes de una secuencia de video antes de aprender a eliminarlo para reconstruir o crear videos coherentes.
Difusión Latente Espacio-Temporal
Variante de los modelos de difusión de video que opera en un espacio latente comprimido, reduciendo la complejidad computacional aplicando el proceso de adición y eliminación de ruido sobre representaciones de baja dimensión en lugar de los píxeles brutos de cada fotograma.
Atención 3D
Mecanismo de atención que procesa simultáneamente las dimensiones espaciales (altura, anchura) y temporal (tiempo) de un video, permitiendo al modelo ponderar la importancia de diferentes regiones a través de distintos momentos para capturar dependencias espacio-temporales.
Inyección de Tiempo (Time Embedding)
Técnica de codificación de información temporal (paso de difusión, posición en la secuencia) en forma de vectores que se inyectan en la red, guiando el proceso de generación para mantener la coherencia y el movimiento a lo largo del tiempo.
Eliminación de Ruido Condicionada por Fotograma Anterior
Estrategia donde la predicción del ruido para un fotograma de video está condicionada por la versión sin ruido del fotograma anterior, asegurando una continuidad y coherencia temporal fuerte entre las imágenes sucesivas de la secuencia generada.
Arquitectura U-Net 3D
Estructura de red neuronal convolucional adaptada para datos de video, combinando caminos codificador-decodificador con conexiones residuales 3D para capturar eficientemente contextos a múltiples escalas espaciales y temporales durante la eliminación de ruido.
Espacio Latente Espacio-Temporal
Representación comprimida y abstracta de una secuencia de video, donde la información espacial y temporal está codificada en un vector o mapa de características de baja dimensión, sirviendo como base para la generación o manipulación de videos.
Guía sin Clasificador (CFG) para Video
Método para controlar la generación de video sin un clasificador explícito, entrenando un modelo tanto en datos condicionales (ej: texto) como no condicionales, luego interpolando entre sus predicciones para ajustar la adherencia al prompt mientras se preserva la diversidad.
Programación Temporal de Difusión
Planificación del número de pasos de eliminación de ruido asignados a cada frame o segmentos temporales, que puede ser uniforme o adaptativa para optimizar la calidad y coherencia global del video generado según la complejidad del movimiento.
Super-Resolución Temporal por Difusión
Aplicación de modelos de difusión para aumentar la frecuencia de imágenes (fps) de un video, generando frames intermedios coherentes que interpolan el movimiento y los cambios entre los frames existentes de manera realista.
Inpainting de Video por Difusión
Proceso de rellenado de áreas faltantes o enmascaradas en una secuencia de video usando un modelo de difusión, que genera píxeles coherentes espacial y temporalmente basándose en el contexto de los frames circundantes.
Modelado de Movimiento Latente
Técnica donde el movimiento en un video es modelado y generado directamente en el espacio latente, frecuentemente prediciendo desplazamientos o transformaciones entre los códigos latentes de frames sucesivas, antes de decodificarlas en imágenes.
Consistencia Temporal por Restricción
Enfoque que añade una penalización o restricción explícita en la función de pérdida del modelo para desalentar cambios de apariencia (ej: color, textura) no relacionados con el movimiento entre frames adyacentes, favoreciendo una estabilidad visual.
Descomposición de Ruido Espacio-Temporal
Método avanzado donde el ruido añadido y predicho por el modelo es descompuesto en una componente espacial (apariencia) y una componente temporal (movimiento), permitiendo un control más fino y una generación más robusta de videos dinámicos.
Auto-Regresión sobre los Latentes de Difusión
Estrategia híbrida que genera un video de manera auto-regresiva frame por frame, donde cada frame latente es producida por un paso de difusión condicionado por los frames latentes anteriores, combinando la coherencia de la auto-regresión y la calidad de la difusión.
Normalización de Características Temporales
Capa de normalización aplicada sobre la dimensión temporal de los mapas de características en un U-Net 3D, estabilizando el entrenamiento asegurando que la distribución de activaciones permanezca consistente a través de las diferentes etapas temporales de la secuencia.