Diffusion Multi-Modalité

📖

termes

Diffusion Multi-Modalité

Classe de modèles génératifs apprenant une distribution de probabilité jointe sur plusieurs modalités (texte, image, audio) via un processus de diffusion partagé ou coordonné.

📖

termes

Espace Latent Unifié

Représentation vectorielle commune où les données de différentes modalités sont projetées pour permettre leur interaction et leur transformation mutuelle au sein d'un modèle de diffusion.

📖

termes

Conditionnement Croisé

Technique où le processus de génération d'une modalité est guidé par l'information d'une autre modalité, par exemple générer une image à partir d'un texte ou un audio à partir d'une image.

📖

termes

Processus d'ajout de bruit qui préserve les corrélations inter-modales, en dégradant conjointement les différentes modalités pour maintenir leur alignement sémantique tout au long du processus de diffusion.

📖

termes

Débruitage Coordonné

Étape de débruitage où les réseaux de neurones dédiés à chaque modalité échangent des informations pour reconstruire de manière cohérente les données à partir de leur version bruitée partagée.

📖

termes

Encodeur Multi-Modal

Réseau de neurones chargé de projeter les données de différentes modalités dans l'espace latent unifié, capturant leurs caractéristiques essentielles et leurs relations.

📖

termes

Décodeur Multi-Modal

Réseau de neurones qui reconstruit les données de chaque modalité à partir de leur représentation dans l'espace latent unifié après le processus de débruitage.

📖

termes

Alignement Inter-Modal

Objectif d'apprentissage visant à minimiser la distance entre les représentations latentes de différentes modalités décrivant le même concept, assurant leur cohérence sémantique.

📖

termes

Modèle de Diffusion Unifié

Architecture de modèle unique qui traite et génère simultanément plusieurs modalités en utilisant un seul et même processus de diffusion et un ensemble de poids partagés.

📖

termes

Guidance Multi-Modal

Technique d'inférence qui utilise le gradient d'un modèle de classification multi-modal pour guider le processus d'échantillonnage vers des sorties mieux alignées avec une condition donnée.

📖

termes

Diffusion à Bras Multiples

Architecture où un processus de diffusion central possède des 'bras' spécialisés pour gérer le bruitage et le débruitage spécifiques à chaque modalité tout en partageant un tronc commun.

📖

termes

Perte de Cohérence Multi-Modal

Fonction de perte pénalisant les incohérences sémantiques entre les modalités générées, mesurée par exemple via la distance cosinus dans l'espace latent unifié.

📖

termes

Échantillonnage Inter-Modal

Processus de génération où l'on échantillonne une modalité tout en conditionnant sur une autre modalité déjà existante ou générée simultanément.

📖

termes

Réseau de Prédiction de Bruit Partagé

Composant central du modèle de diffusion, souvent une architecture U-Net, dont les couches inférieures sont partagées entre les modalités et les couches supérieures sont spécialisées.

📖

termes

Plongement de Temps Multi-Modal

Représentation du pas de temps du processus de diffusion qui est injecté dans le modèle, souvent conditionnée par la modalité pour gérer des dynamiques de bruit différentes.

📖

termes

Diffusion de Séquence Multi-Modal

Application de la diffusion à des données séquentielles impliquant plusieurs modalités, comme la génération de vidéo (image + temps) ou de dialogue synchronisé (audio + texte).

📖

termes

Tokenisation Multi-Modal

Processus de discrétisation des données de différentes modalités en une séquence de tokens unifiés qui peuvent être traités par une architecture de type Transformer dans le cadre de la diffusion.

Glossaire IA