Modèles Multimodaux - AI 术语表

📖

个术语

Attention Cross-modale

Mécanisme d'attention permettant à un modèle de mettre en relation des éléments provenant de différentes modalités (texte-image, audio-texte) pour enrichir la compréhension contextuelle. Cette approche calcule des poids d'attention entre les caractéristiques de chaque modalité pour identifier les corrélations sémantiques pertinentes.

📖

个术语

Génération Cross-domaine

Capacité d'un modèle IA de créer du contenu dans une modalité cible à partir d'entrées dans une ou plusieurs modalités sources différentes. Cette transformation permet par exemple de générer des images à partir de descriptions textuelles, de créer du audio à partir de vidéo, ou de synthétiser du texte à partir d'images.

📖

个术语

Modèles de Diffusion Multimodaux

Approche générative combinant des processus de diffusion pour créer du contenu cohérent à travers plusieurs modalités simultanément. Ces modèles utilisent des bruits progressifs et des conditions cross-modales pour générer des sorties complexes comme des vidéos synchronisées avec de l'audio ou des images avec des descriptions détaillées.

📖

个术语

Projection Partagée

Technique consistant à mapper les représentations de différentes modalités dans un espace vectoriel commun via des réseaux de projection appris conjointement. Cette approche facilite les comparaisons directes entre modalités et permet des opérations comme le retrieval cross-modal et la génération conditionnelle.

📖

个术语

Modèles Contrastifs Multimodaux

Classe de modèles utilisant des objectifs d'apprentissage contrastif pour maximiser la similarité entre paires positives de modalités tout en minimisant celle des paires négatives. Ces modèles excellent dans les tâches d'alignement et de retrieval grâce à leur capacité à apprendre des représentations sémantiquement riches.

📖

个术语

Représentations Latentes Multimodales

Espaces de dimensions réduites encodant les informations essentielles de plusieurs modalités de manière compacte et interprétable. Ces représentations capturent les corrélations cross-modales tout en filtrant le bruit, permettant des tâches efficaces de génération, classification et retrieval.

📖

个术语

Modèles d'Encodage-Décodage Multimodaux

Architecture composée d'un encodeur multimodal traitant les entrées hétérogènes et d'un décodeur générant des sorties dans la modalité cible. Ces modèles sont particulièrement efficaces pour les tâches de séquence-à-séquence cross-modales comme la traduction image-texte ou la synthèse audio-vidéo.

📖

个术语

Adapter Multimodal

Module neuronal léger permettant d'adapter des modèles pré-entraînés sur une modalité spécifique pour traiter efficacement des entrées multimodales sans ré-entraînement complet. Ces composants facilitent le transfert d'apprentissage tout en préservant les capacités du modèle de base.

AI 词汇表