एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Fusion d'Attributs Multimodaux
Processus de combinaison de caractéristiques issues de différentes modalités (texte, image, son) en une représentation unifiée pour un modèle d'apprentissage, visant à capturer les interactions complexes entre les sources de données.
Explication par Projection
Méthode d'interprétabilité qui consiste à projeter la contribution d'une modalité complexe (ex: une image) sur un espace plus simple et interprétable (ex: des mots-clés ou des concepts) pour expliquer son influence sur la prédiction du modèle.
Carte de Salience Multimodale
Visualisation qui met en évidence les régions ou les segments les plus influents de chaque modalité (pixels d'une image, mots d'un texte, segments audio) pour une décision spécifique du modèle, souvent en superposant les contributions sur les données d'origine.
Alignement Sémantique Inter-modalités
Technique visant à établir des correspondances sémantiques entre les éléments de différentes modalités (ex: lier un mot à une région d'image ou un son à une action), crucial pour que le modèle comprenne les relations et fournisse des explications cohérentes.
Décomposition par Modalité (Modality-wise Decomposition)
Approche d'explicabilité qui isole et quantifie la contribution individuelle de chaque modalité d'entrée à la prédiction finale, permettant de comprendre si une décision est principalement guidée par le texte, l'image ou le son.
Concept Bottleneck Multimodal
Architecture de modèle où la prédiction finale est conditionnée par un ensemble de concepts interprétables, eux-mêmes déduits de la fusion des modalités, offrant une traçabilité claire des données brutes aux concepts puis à la décision.
Régularisation d'Orthogonalité
Contrainte appliquée durant l'entraînement pour forcer les représentations des différentes modalités dans l'espace latent partagé à être aussi indépendantes que possible, évitant la redondance et améliorant la clarté des explications par modalité.
Explication Contrefactuelle Multimodale
Génération d'exemples modifiés (en changeant une ou plusieurs modalités) qui suffisent à inverser la prédiction du modèle, aidant à comprendre les conditions minimales et les interactions entre modalités nécessaires à une décision.
Fusion Tardive pour l'Interprétabilité (Late Fusion for Interpretability)
Stratégie où chaque modalité est traitée par un modèle spécialisé jusqu'à une décision intermédiaire, les résultats étant ensuite fusionnés. Cette approche facilite l'interprétation en isolant la logique de chaque modalité avant la combinaison finale.
Modèle de VISION-LANGAGE Fondamental
Modèle à grande échelle pré-entraîné sur d'immenses corpus de données textuelles et visuelles, capable de comprendre et de générer du contenu à partir de ces deux modalités, dont l'interprétabilité est un défi majeur en raison de sa complexité intrinsèque.
Analyse de Rôle Modal (Modal Role Analysis)
Évaluation systématique du rôle joué par chaque modalité dans différentes tâches ou contextes, déterminant si une modalité agit comme un support contextuel, une source d'information primaire ou un modificateur pour les autres.
Grounding Visuo-Linguistique
Processus d'ancrage des symboles linguistiques (mots, phrases) à des entités ou des concepts concrets dans les données visuelles, fondamental pour que les explications d'un modèle reliant texte et image soient sémantiquement correctes et compréhensibles.
Interprétabilité par Nœud de Fusion (Fusion Node Interpretability)
Méthode qui se concentre sur l'analyse des neurones ou des couches spécifiques où la fusion des informations multimodales a lieu, pour comprendre comment les interactions sont encodées et comment elles influencent la sortie du modèle.
Explication par Gradient Croisé
Technode d'interprétabilité qui calcule le gradient de la sortie du modèle par rapport aux caractéristiques d'une modalité, tout en conditionnant ce calcul sur les caractéristiques d'une autre modalité, révélant ainsi les dépendances inter-modales.