Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Vision-Language Model (VLM)
Sous-classe de modèles multimodaux spécialisés dans la compréhension conjointe du texte et des images, capables de tâches comme la légende d'image, le raisonnement visuel ou la génération d'images à partir de texte.
Tokenisation Visuelle
Technique qui découpe une image en une séquence de patches ou de tokens discrets, souvent via un réseau de neurones comme un Vision Transformer (ViT), pour la rendre compatible avec l'architecture des transformeurs textuels.
Modèle d'Alignement
Modèle, souvent basé sur un contrasteur comme CLIP, entraîné sur d'immenses corpus de paires (image, texte) pour apprendre à projeter les deux modalités dans un espace vectoriel partagé où la similarité cosinus reflète leur pertinence mutuelle.
Génération Conditionnelle Multimodale
Tâche de génération où la sortie (ex: texte, image) est produite en se basant sur une ou plusieurs entrées de modalités différentes, comme la description d'une image ou la création d'une image à partir d'un texte.
Raisonnement Chaîné Multimodal
Capacité d'un modèle à utiliser des informations de plusieurs modalités pour construire une séquence logique de pensée et parvenir à une conclusion, par exemple en analysant un graphique et un texte pour répondre à une question.
Perceptron Multimodal
Concept théorique ou architecture primitive où les entrées de différentes natures sont combinées, souvent par concaténation ou une opération de fusion, avant d'être traitées par des couches de neurones fully connected.
Modèle de Diffusion Multimodal
Architecture de génération qui utilise un processus de bruitage et de débruitage itératif pour créer des données (ex: images) conditionnées par une autre modalité (ex: une description textuelle), en guidant le débruitage avec l'information de conditionnement.
Encodage Séparé vs Encodage Uni
Deux stratégies d'architecture pour les modèles multimodaux : l'encodage séparé traite chaque modalité avec un encodeur dédié avant la fusion, tandis que l'encodage uni utilise un seul transformeur pour traiter une séquence de tokens mélangés.
Zero-Shot Learning Multimodal
Capacité d'un modèle à effectuer une tâche sur une modalité (ex: classifier une image) sans avoir été explicitement entraîné pour celle-ci, en exploitant les connaissances transférées depuis une autre modalité (ex: le texte des étiquettes de classes).
Modèle Audio-Vision-Texte
Forme avancée de modèle multimodal intégrant trois flux de données (son, image, texte) pour des tâches complexes comme la description de vidéos, où le modèle doit synchroniser et interpréter les informations visuelles et sonores pour produire une narration textuelle.
Projection Latente
Couche de réseau de neurones, souvent une simple transformation linéaire, utilisée pour mapper les vecteurs d'embeddings de chaque modalité dans un espace latent commun avant leur fusion ou leur comparaison.
Modèle Fondamental Multimodal
Modèle de très grande échelle, pré-entraîné sur des quantités massives de données hétérogènes, qui sert de base pour l'adaptation (fine-tuning) à une multitude de tâches multimodales spécifiques.
Modularité dans les Modèles Multimodaux
Principe de conception où les encodeurs pour chaque modalité sont des modules distincts et interchangeables, permettant de mettre à jour ou de remplacer un composant (ex: le vision encoder) sans réentraîner l'ensemble du modèle.
Prompting Multimodal
Technique d'interaction avec un modèle où l'entrée (le 'prompt') est composée de plusieurs modalités, par exemple une image accompagnée d'une question textuelle, pour guider le modèle vers une réponse spécifique.