Diffusion Vidéo et Temporelle
Architecture U-Net 3D
Structure de réseau neuronal convolutif adaptée pour les données vidéo, combinant des chemins encodeur-décodeur avec des connexions résiduelles 3D pour capturer efficacement les contextes à plusieurs échelles spatiales et temporelles lors du débruitage.
← Retour