YZ Sözlüğü
Yapay Zekanın tam sözlüğü
Espace de Représentation Commun
Espace vectoriel partagé où les caractéristiques de différentes modalités sont projetées pour permettre des comparaisons directes et des opérations cross-modales.
Encodage Multi-Modal
Architecture neuronale transformant simultanément plusieurs modalités d'entrée en représentations vectorielles compatibles pour des tâches d'apprentissage conjoint.
Fusion de Modalités
Technique combinant des informations provenant de différentes sources modales pour créer une représentation unifiée et enrichie capturant les complémentarités.
Projection Contrastive
Méthode d'apprentissage qui maximise la similarité entre paires positives (texte-image correspondantes) tout en minimisant celle des paires négatives dans un espace latent.
Apprentissage Conjoint Multi-Modal
Paradigme d'entraînement simultané de plusieurs encodeurs modaux avec des objectifs partagés pour développer des représentations cohérentes entre modalités.
Architecture Transformer Multi-Modal
Modèle basé sur des mécanismes d'attention croisée traitant et intégrant des séquences de différentes modalités pour capturer leurs interactions profondes.
Perte de Triplet Multi-Modal
Fonction de coût optimisant les distances relatives entre ancres, positives et négatives de différentes modalités pour améliorer l'alignement sémantique.
Alignement Sémantique
Correspondance conceptuelle entre éléments de différentes modalités basée sur leur signification plutôt que sur leurs caractéristiques superficielles.
Co-apprentissage Multi-Modal
Stratégie où chaque modalité apprend à améliorer ses représentations en utilisant les informations des autres modalités comme supervision mutuelle.
Attention Croisée
Mécanisme permettant à une modalité de se concentrer sélectivement sur les parties pertinentes d'une autre modalité pour établir des correspondances fines.
Correspondance Multi-Échelle
Alignement entre modalités opérant à différents niveaux de granularité, des caractéristiques locales aux représentations globales.
Synchronisation Temporelle Multi-Modal
Alignement temporel précis entre flux de données séquentiels de différentes modalités comme l'audio et la vidéo ou le texte et les actions.
Transfert Zero-Shot Cross-Modal
Capacité à généraliser vers de nouvelles paires modales ou classes sans exemples d'entraînement directs, grâce à l'alignement appris dans l'espace commun.
Alignement Métrique Multi-Modal
Optimisation d'une métrique de distance dans l'espace latent pour garantir que les représentations de modalités similaires soient proches et celles dissemblables éloignées.
Encodage Multimodal Hiérarchique
Architecture organisée en niveaux traitant progressivement les informations multi-modales des détails locaux vers la compréhension globale.
Fusion Tardive vs Précoce
Deux stratégies d'integration modale : la fusion précoce combine les données brutes, tandis que la tardive fusionne les représentations déjà apprises séparément.
Correspondance Globale-locale
Alignement simultané entre représentations globales (image entière-texte complet) et correspondances locales (régions-mots) pour un mapping précis.