Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Diffusion Multi-Modalité
Classe de modèles génératifs apprenant une distribution de probabilité jointe sur plusieurs modalités (texte, image, audio) via un processus de diffusion partagé ou coordonné.
Espace Latent Unifié
Représentation vectorielle commune où les données de différentes modalités sont projetées pour permettre leur interaction et leur transformation mutuelle au sein d'un modèle de diffusion.
Conditionnement Croisé
Technique où le processus de génération d'une modalité est guidé par l'information d'une autre modalité, par exemple générer une image à partir d'un texte ou un audio à partir d'une image.
Bruit Structuré Multi-Modal
Processus d'ajout de bruit qui préserve les corrélations inter-modales, en dégradant conjointement les différentes modalités pour maintenir leur alignement sémantique tout au long du processus de diffusion.
Débruitage Coordonné
Étape de débruitage où les réseaux de neurones dédiés à chaque modalité échangent des informations pour reconstruire de manière cohérente les données à partir de leur version bruitée partagée.
Encodeur Multi-Modal
Réseau de neurones chargé de projeter les données de différentes modalités dans l'espace latent unifié, capturant leurs caractéristiques essentielles et leurs relations.
Décodeur Multi-Modal
Réseau de neurones qui reconstruit les données de chaque modalité à partir de leur représentation dans l'espace latent unifié après le processus de débruitage.
Alignement Inter-Modal
Objectif d'apprentissage visant à minimiser la distance entre les représentations latentes de différentes modalités décrivant le même concept, assurant leur cohérence sémantique.
Modèle de Diffusion Unifié
Architecture de modèle unique qui traite et génère simultanément plusieurs modalités en utilisant un seul et même processus de diffusion et un ensemble de poids partagés.
Guidance Multi-Modal
Technique d'inférence qui utilise le gradient d'un modèle de classification multi-modal pour guider le processus d'échantillonnage vers des sorties mieux alignées avec une condition donnée.
Diffusion à Bras Multiples
Architecture où un processus de diffusion central possède des 'bras' spécialisés pour gérer le bruitage et le débruitage spécifiques à chaque modalité tout en partageant un tronc commun.
Perte de Cohérence Multi-Modal
Fonction de perte pénalisant les incohérences sémantiques entre les modalités générées, mesurée par exemple via la distance cosinus dans l'espace latent unifié.
Échantillonnage Inter-Modal
Processus de génération où l'on échantillonne une modalité tout en conditionnant sur une autre modalité déjà existante ou générée simultanément.
Réseau de Prédiction de Bruit Partagé
Composant central du modèle de diffusion, souvent une architecture U-Net, dont les couches inférieures sont partagées entre les modalités et les couches supérieures sont spécialisées.
Plongement de Temps Multi-Modal
Représentation du pas de temps du processus de diffusion qui est injecté dans le modèle, souvent conditionnée par la modalité pour gérer des dynamiques de bruit différentes.
Diffusion de Séquence Multi-Modal
Application de la diffusion à des données séquentielles impliquant plusieurs modalités, comme la génération de vidéo (image + temps) ou de dialogue synchronisé (audio + texte).
Tokenisation Multi-Modal
Processus de discrétisation des données de différentes modalités en une séquence de tokens unifiés qui peuvent être traités par une architecture de type Transformer dans le cadre de la diffusion.