Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Modèle de Diffusion Vidéo
Architecture de génération qui applique le processus de diffusion à des données spatio-temporelles, en ajoutant progressivement du bruit aux images d'une séquence vidéo avant d'apprendre à le débruiter pour reconstruire ou créer des vidéos cohérentes.
Diffusion Latente Spatio-Temporelle
Variante des modèles de diffusion vidéo qui opère dans un espace latent compressé, réduisant la complexité computationnelle en appliquant le processus de bruitage et de débruitage sur des représentations de faible dimension plutôt que sur les pixels bruts de chaque frame.
Attention 3D
Mécanisme d'attention qui traite simultanément les dimensions spatiales (hauteur, largeur) et temporelle (temps) d'une vidéo, permettant au modèle de pondérer l'importance de différentes régions à travers différents moments pour capturer les dépendances spatio-temporelles.
Injection de Temps (Time Embedding)
Technique d'encodage de l'information temporelle (pas de diffusion, position dans la séquence) sous forme de vecteurs qui sont injectés dans le réseau, guidant le processus de génération pour maintenir la cohérence et le mouvement au fil du temps.
Débruitage Conditionnel par Frame Précédente
Stratégie où la prédiction du bruit pour une frame vidéo est conditionnée par la version débruitée de la frame précédente, assurant une continuité et une cohérence temporelle forte entre les images successives de la séquence générée.
Architecture U-Net 3D
Structure de réseau neuronal convolutif adaptée pour les données vidéo, combinant des chemins encodeur-décodeur avec des connexions résiduelles 3D pour capturer efficacement les contextes à plusieurs échelles spatiales et temporelles lors du débruitage.
Espace Latent Spatio-Temporel
Représentation compressée et abstraite d'une séquence vidéo, où les informations spatiales et temporelles sont encodées dans un vecteur ou une carte de caractéristiques de faible dimension, servant de base à la génération ou à la manipulation de vidéos.
Guidage Classifier-Free (CFG) Vidéo
Méthode pour contrôler la génération vidéo sans classifier explicite, en entraînant un modèle à la fois sur des données conditionnelles (ex: texte) et non conditionnelles, puis en interpolant entre leurs prédictions pour ajuster l'adhésion au prompt tout en préservant la diversité.
Scheduling de Diffusion Temporel
Planification du nombre de pas de débruitage alloués à chaque frame ou à des segments temporels, pouvant être uniforme ou adaptatif pour optimiser la qualité et la cohérence globale de la vidéo générée en fonction de la complexité du mouvement.
Super-Résolution Temporelle par Diffusion
Application des modèles de diffusion pour augmenter la fréquence d'images (fps) d'une vidéo, en générant des frames intermédiaires cohérentes qui interpolent le mouvement et les changements entre les frames existantes de manière réaliste.
Inpainting Vidéo par Diffusion
Processus de remplissage de zones manquantes ou masquées dans une séquence vidéo en utilisant un modèle de diffusion, qui génère des pixels cohérents spatialement et temporellement en se basant sur le contexte des frames environnantes.
Modélisation de Mouvement Latent
Technique où le mouvement dans une vidéo est modélisé et généré directement dans l'espace latent, souvent en prédisant les déplacements ou les transformations entre les codes latents des frames successives, avant de les décoder en images.
Consistance Temporelle par Contrainte
Approche qui ajoute une pénalité ou une contrainte explicite dans la fonction de perte du modèle pour décourager les changements d'apparence (ex: couleur, texture) non liés au mouvement entre les frames adjacentes, favorisant une stabilité visuelle.
Décomposition de Bruit Spatio-Temporelle
Méthode avancée où le bruit ajouté et prédit par le modèle est décomposé en une composante spatiale (apparence) et une composante temporelle (mouvement), permettant un contrôle plus fin et une génération plus robuste de vidéos dynamiques.
Auto-Régression sur les Latents de Diffusion
Stratégie hybride qui génère une vidéo de manière auto-régressive frame par frame, où chaque frame latente est produite par un pas de diffusion conditionné par les frames latentes précédentes, combinant la cohérence de l'auto-régression et la qualité de la diffusion.
Normalisation des Caractéristiques Temporelles
Couche de normalisation appliquée sur la dimension temporelle des cartes de caractéristiques dans un U-Net 3D, stabilisant l'entraînement en assurant que la distribution des activations reste cohérente à travers les différentes étapes temporelles de la séquence.