Modèles Multimodaux - 인공지능 용어집

📖

용어

Attention Cross-modale

Mécanisme d'attention permettant à un modèle de mettre en relation des éléments provenant de différentes modalités (texte-image, audio-texte) pour enrichir la compréhension contextuelle. Cette approche calcule des poids d'attention entre les caractéristiques de chaque modalité pour identifier les corrélations sémantiques pertinentes.

📖

용어

Génération Cross-domaine

Capacité d'un modèle IA de créer du contenu dans une modalité cible à partir d'entrées dans une ou plusieurs modalités sources différentes. Cette transformation permet par exemple de générer des images à partir de descriptions textuelles, de créer du audio à partir de vidéo, ou de synthétiser du texte à partir d'images.

📖

용어

Modèles de Diffusion Multimodaux

Approche générative combinant des processus de diffusion pour créer du contenu cohérent à travers plusieurs modalités simultanément. Ces modèles utilisent des bruits progressifs et des conditions cross-modales pour générer des sorties complexes comme des vidéos synchronisées avec de l'audio ou des images avec des descriptions détaillées.

📖

용어

Projection Partagée

Technique consistant à mapper les représentations de différentes modalités dans un espace vectoriel commun via des réseaux de projection appris conjointement. Cette approche facilite les comparaisons directes entre modalités et permet des opérations comme le retrieval cross-modal et la génération conditionnelle.

📖

용어

Modèles Contrastifs Multimodaux

Classe de modèles utilisant des objectifs d'apprentissage contrastif pour maximiser la similarité entre paires positives de modalités tout en minimisant celle des paires négatives. Ces modèles excellent dans les tâches d'alignement et de retrieval grâce à leur capacité à apprendre des représentations sémantiquement riches.

📖

용어

Représentations Latentes Multimodales

Espaces de dimensions réduites encodant les informations essentielles de plusieurs modalités de manière compacte et interprétable. Ces représentations capturent les corrélations cross-modales tout en filtrant le bruit, permettant des tâches efficaces de génération, classification et retrieval.

📖

용어

Modèles d'Encodage-Décodage Multimodaux

Architecture composée d'un encodeur multimodal traitant les entrées hétérogènes et d'un décodeur générant des sorties dans la modalité cible. Ces modèles sont particulièrement efficaces pour les tâches de séquence-à-séquence cross-modales comme la traduction image-texte ou la synthèse audio-vidéo.

📖

용어

Adapter Multimodal

Module neuronal léger permettant d'adapter des modèles pré-entraînés sur une modalité spécifique pour traiter efficacement des entrées multimodales sans ré-entraînement complet. Ces composants facilitent le transfert d'apprentissage tout en préservant les capacités du modèle de base.

AI 용어집