Difusión de Video y Temporal

📖

términos

Modelo de Difusión de Video

Arquitectura de generación que aplica el proceso de difusión a datos espacio-temporales, añadiendo progresivamente ruido a las imágenes de una secuencia de video antes de aprender a eliminarlo para reconstruir o crear videos coherentes.

📖

términos

Difusión Latente Espacio-Temporal

Variante de los modelos de difusión de video que opera en un espacio latente comprimido, reduciendo la complejidad computacional aplicando el proceso de adición y eliminación de ruido sobre representaciones de baja dimensión en lugar de los píxeles brutos de cada fotograma.

📖

términos

Atención 3D

Mecanismo de atención que procesa simultáneamente las dimensiones espaciales (altura, anchura) y temporal (tiempo) de un video, permitiendo al modelo ponderar la importancia de diferentes regiones a través de distintos momentos para capturar dependencias espacio-temporales.

📖

términos

Inyección de Tiempo (Time Embedding)

Técnica de codificación de información temporal (paso de difusión, posición en la secuencia) en forma de vectores que se inyectan en la red, guiando el proceso de generación para mantener la coherencia y el movimiento a lo largo del tiempo.

📖

términos

Eliminación de Ruido Condicionada por Fotograma Anterior

Estrategia donde la predicción del ruido para un fotograma de video está condicionada por la versión sin ruido del fotograma anterior, asegurando una continuidad y coherencia temporal fuerte entre las imágenes sucesivas de la secuencia generada.

📖

términos

Arquitectura U-Net 3D

Estructura de red neuronal convolucional adaptada para datos de video, combinando caminos codificador-decodificador con conexiones residuales 3D para capturar eficientemente contextos a múltiples escalas espaciales y temporales durante la eliminación de ruido.

📖

términos

Espacio Latente Espacio-Temporal

Representación comprimida y abstracta de una secuencia de video, donde la información espacial y temporal está codificada en un vector o mapa de características de baja dimensión, sirviendo como base para la generación o manipulación de videos.

📖

términos

Guía sin Clasificador (CFG) para Video

Método para controlar la generación de video sin un clasificador explícito, entrenando un modelo tanto en datos condicionales (ej: texto) como no condicionales, luego interpolando entre sus predicciones para ajustar la adherencia al prompt mientras se preserva la diversidad.

📖

términos

Programación Temporal de Difusión

Planificación del número de pasos de eliminación de ruido asignados a cada frame o segmentos temporales, que puede ser uniforme o adaptativa para optimizar la calidad y coherencia global del video generado según la complejidad del movimiento.

📖

términos

Super-Resolución Temporal por Difusión

Aplicación de modelos de difusión para aumentar la frecuencia de imágenes (fps) de un video, generando frames intermedios coherentes que interpolan el movimiento y los cambios entre los frames existentes de manera realista.

📖

términos

Inpainting de Video por Difusión

Proceso de rellenado de áreas faltantes o enmascaradas en una secuencia de video usando un modelo de difusión, que genera píxeles coherentes espacial y temporalmente basándose en el contexto de los frames circundantes.

📖

términos

Modelado de Movimiento Latente

Técnica donde el movimiento en un video es modelado y generado directamente en el espacio latente, frecuentemente prediciendo desplazamientos o transformaciones entre los códigos latentes de frames sucesivas, antes de decodificarlas en imágenes.

📖

términos

Consistencia Temporal por Restricción

Enfoque que añade una penalización o restricción explícita en la función de pérdida del modelo para desalentar cambios de apariencia (ej: color, textura) no relacionados con el movimiento entre frames adyacentes, favoreciendo una estabilidad visual.

📖

términos

Descomposición de Ruido Espacio-Temporal

Método avanzado donde el ruido añadido y predicho por el modelo es descompuesto en una componente espacial (apariencia) y una componente temporal (movimiento), permitiendo un control más fino y una generación más robusta de videos dinámicos.

📖

términos

Auto-Regresión sobre los Latentes de Difusión

Estrategia híbrida que genera un video de manera auto-regresiva frame por frame, donde cada frame latente es producida por un paso de difusión condicionado por los frames latentes anteriores, combinando la coherencia de la auto-regresión y la calidad de la difusión.

📖

términos

Normalización de Características Temporales

Capa de normalización aplicada sobre la dimensión temporal de los mapas de características en un U-Net 3D, estabilizando el entrenamiento asegurando que la distribución de activaciones permanezca consistente a través de las diferentes etapas temporales de la secuencia.

Glosario IA

Modelo de Difusión de Video

Difusión Latente Espacio-Temporal

Atención 3D

Inyección de Tiempo (Time Embedding)

Eliminación de Ruido Condicionada por Fotograma Anterior

Arquitectura U-Net 3D

Espacio Latente Espacio-Temporal

Guía sin Clasificador (CFG) para Video

Programación Temporal de Difusión

Super-Resolución Temporal por Difusión

Inpainting de Video por Difusión

Modelado de Movimiento Latente

Consistencia Temporal por Restricción

Descomposición de Ruido Espacio-Temporal

Auto-Regresión sobre los Latentes de Difusión

Normalización de Características Temporales

No se encontraron resultados