Diffusion Vidéo et Temporelle

📖

termes

Modèle de Diffusion Vidéo

Architecture de génération qui applique le processus de diffusion à des données spatio-temporelles, en ajoutant progressivement du bruit aux images d'une séquence vidéo avant d'apprendre à le débruiter pour reconstruire ou créer des vidéos cohérentes.

📖

termes

Diffusion Latente Spatio-Temporelle

Variante des modèles de diffusion vidéo qui opère dans un espace latent compressé, réduisant la complexité computationnelle en appliquant le processus de bruitage et de débruitage sur des représentations de faible dimension plutôt que sur les pixels bruts de chaque frame.

📖

termes

Attention 3D

Mécanisme d'attention qui traite simultanément les dimensions spatiales (hauteur, largeur) et temporelle (temps) d'une vidéo, permettant au modèle de pondérer l'importance de différentes régions à travers différents moments pour capturer les dépendances spatio-temporelles.

📖

termes

Injection de Temps (Time Embedding)

Technique d'encodage de l'information temporelle (pas de diffusion, position dans la séquence) sous forme de vecteurs qui sont injectés dans le réseau, guidant le processus de génération pour maintenir la cohérence et le mouvement au fil du temps.

📖

termes

Débruitage Conditionnel par Frame Précédente

Stratégie où la prédiction du bruit pour une frame vidéo est conditionnée par la version débruitée de la frame précédente, assurant une continuité et une cohérence temporelle forte entre les images successives de la séquence générée.

📖

termes

Architecture U-Net 3D

Structure de réseau neuronal convolutif adaptée pour les données vidéo, combinant des chemins encodeur-décodeur avec des connexions résiduelles 3D pour capturer efficacement les contextes à plusieurs échelles spatiales et temporelles lors du débruitage.

📖

termes

Espace Latent Spatio-Temporel

Représentation compressée et abstraite d'une séquence vidéo, où les informations spatiales et temporelles sont encodées dans un vecteur ou une carte de caractéristiques de faible dimension, servant de base à la génération ou à la manipulation de vidéos.

📖

termes

Guidage Classifier-Free (CFG) Vidéo

Méthode pour contrôler la génération vidéo sans classifier explicite, en entraînant un modèle à la fois sur des données conditionnelles (ex: texte) et non conditionnelles, puis en interpolant entre leurs prédictions pour ajuster l'adhésion au prompt tout en préservant la diversité.

📖

termes

Scheduling de Diffusion Temporel

Planification du nombre de pas de débruitage alloués à chaque frame ou à des segments temporels, pouvant être uniforme ou adaptatif pour optimiser la qualité et la cohérence globale de la vidéo générée en fonction de la complexité du mouvement.

📖

termes

Super-Résolution Temporelle par Diffusion

Application des modèles de diffusion pour augmenter la fréquence d'images (fps) d'une vidéo, en générant des frames intermédiaires cohérentes qui interpolent le mouvement et les changements entre les frames existantes de manière réaliste.

📖

termes

Inpainting Vidéo par Diffusion

Processus de remplissage de zones manquantes ou masquées dans une séquence vidéo en utilisant un modèle de diffusion, qui génère des pixels cohérents spatialement et temporellement en se basant sur le contexte des frames environnantes.

📖

termes

Modélisation de Mouvement Latent

Technique où le mouvement dans une vidéo est modélisé et généré directement dans l'espace latent, souvent en prédisant les déplacements ou les transformations entre les codes latents des frames successives, avant de les décoder en images.

📖

termes

Consistance Temporelle par Contrainte

Approche qui ajoute une pénalité ou une contrainte explicite dans la fonction de perte du modèle pour décourager les changements d'apparence (ex: couleur, texture) non liés au mouvement entre les frames adjacentes, favorisant une stabilité visuelle.

📖

termes

Décomposition de Bruit Spatio-Temporelle

Méthode avancée où le bruit ajouté et prédit par le modèle est décomposé en une composante spatiale (apparence) et une composante temporelle (mouvement), permettant un contrôle plus fin et une génération plus robuste de vidéos dynamiques.

📖

termes

Auto-Régression sur les Latents de Diffusion

Stratégie hybride qui génère une vidéo de manière auto-régressive frame par frame, où chaque frame latente est produite par un pas de diffusion conditionné par les frames latentes précédentes, combinant la cohérence de l'auto-régression et la qualité de la diffusion.

📖

termes

Normalisation des Caractéristiques Temporelles

Couche de normalisation appliquée sur la dimension temporelle des cartes de caractéristiques dans un U-Net 3D, stabilisant l'entraînement en assurant que la distribution des activations reste cohérente à travers les différentes étapes temporelles de la séquence.

Glossaire IA

Modèle de Diffusion Vidéo

Diffusion Latente Spatio-Temporelle

Attention 3D

Injection de Temps (Time Embedding)

Débruitage Conditionnel par Frame Précédente

Architecture U-Net 3D

Espace Latent Spatio-Temporel

Guidage Classifier-Free (CFG) Vidéo

Scheduling de Diffusion Temporel

Super-Résolution Temporelle par Diffusion

Inpainting Vidéo par Diffusion

Modélisation de Mouvement Latent

Consistance Temporelle par Contrainte

Décomposition de Bruit Spatio-Temporelle

Auto-Régression sur les Latents de Diffusion

Normalisation des Caractéristiques Temporelles

Aucun résultat trouvé