AI 용어집
인공지능 완전 사전
Attention Cross-modale
Mécanisme d'attention permettant à un modèle de mettre en relation des éléments provenant de différentes modalités (texte-image, audio-texte) pour enrichir la compréhension contextuelle. Cette approche calcule des poids d'attention entre les caractéristiques de chaque modalité pour identifier les corrélations sémantiques pertinentes.
Génération Cross-domaine
Capacité d'un modèle IA de créer du contenu dans une modalité cible à partir d'entrées dans une ou plusieurs modalités sources différentes. Cette transformation permet par exemple de générer des images à partir de descriptions textuelles, de créer du audio à partir de vidéo, ou de synthétiser du texte à partir d'images.
Modèles de Diffusion Multimodaux
Approche générative combinant des processus de diffusion pour créer du contenu cohérent à travers plusieurs modalités simultanément. Ces modèles utilisent des bruits progressifs et des conditions cross-modales pour générer des sorties complexes comme des vidéos synchronisées avec de l'audio ou des images avec des descriptions détaillées.
Projection Partagée
Technique consistant à mapper les représentations de différentes modalités dans un espace vectoriel commun via des réseaux de projection appris conjointement. Cette approche facilite les comparaisons directes entre modalités et permet des opérations comme le retrieval cross-modal et la génération conditionnelle.
Modèles Contrastifs Multimodaux
Classe de modèles utilisant des objectifs d'apprentissage contrastif pour maximiser la similarité entre paires positives de modalités tout en minimisant celle des paires négatives. Ces modèles excellent dans les tâches d'alignement et de retrieval grâce à leur capacité à apprendre des représentations sémantiquement riches.
Représentations Latentes Multimodales
Espaces de dimensions réduites encodant les informations essentielles de plusieurs modalités de manière compacte et interprétable. Ces représentations capturent les corrélations cross-modales tout en filtrant le bruit, permettant des tâches efficaces de génération, classification et retrieval.
Modèles d'Encodage-Décodage Multimodaux
Architecture composée d'un encodeur multimodal traitant les entrées hétérogènes et d'un décodeur générant des sorties dans la modalité cible. Ces modèles sont particulièrement efficaces pour les tâches de séquence-à-séquence cross-modales comme la traduction image-texte ou la synthèse audio-vidéo.
Adapter Multimodal
Module neuronal léger permettant d'adapter des modèles pré-entraînés sur une modalité spécifique pour traiter efficacement des entrées multimodales sans ré-entraînement complet. Ces composants facilitent le transfert d'apprentissage tout en préservant les capacités du modèle de base.