Modèles Multimodaux - Glossaire IA

📖

termes

Vision-Language Model (VLM)

Sous-classe de modèles multimodaux spécialisés dans la compréhension conjointe du texte et des images, capables de tâches comme la légende d'image, le raisonnement visuel ou la génération d'images à partir de texte.

📖

termes

Tokenisation Visuelle

Technique qui découpe une image en une séquence de patches ou de tokens discrets, souvent via un réseau de neurones comme un Vision Transformer (ViT), pour la rendre compatible avec l'architecture des transformeurs textuels.

📖

termes

Modèle d'Alignement

Modèle, souvent basé sur un contrasteur comme CLIP, entraîné sur d'immenses corpus de paires (image, texte) pour apprendre à projeter les deux modalités dans un espace vectoriel partagé où la similarité cosinus reflète leur pertinence mutuelle.

📖

termes

Génération Conditionnelle Multimodale

Tâche de génération où la sortie (ex: texte, image) est produite en se basant sur une ou plusieurs entrées de modalités différentes, comme la description d'une image ou la création d'une image à partir d'un texte.

📖

termes

Raisonnement Chaîné Multimodal

Capacité d'un modèle à utiliser des informations de plusieurs modalités pour construire une séquence logique de pensée et parvenir à une conclusion, par exemple en analysant un graphique et un texte pour répondre à une question.

📖

termes

Perceptron Multimodal

Concept théorique ou architecture primitive où les entrées de différentes natures sont combinées, souvent par concaténation ou une opération de fusion, avant d'être traitées par des couches de neurones fully connected.

📖

termes

Modèle de Diffusion Multimodal

Architecture de génération qui utilise un processus de bruitage et de débruitage itératif pour créer des données (ex: images) conditionnées par une autre modalité (ex: une description textuelle), en guidant le débruitage avec l'information de conditionnement.

📖

termes

Encodage Séparé vs Encodage Uni

Deux stratégies d'architecture pour les modèles multimodaux : l'encodage séparé traite chaque modalité avec un encodeur dédié avant la fusion, tandis que l'encodage uni utilise un seul transformeur pour traiter une séquence de tokens mélangés.

📖

termes

Zero-Shot Learning Multimodal

Capacité d'un modèle à effectuer une tâche sur une modalité (ex: classifier une image) sans avoir été explicitement entraîné pour celle-ci, en exploitant les connaissances transférées depuis une autre modalité (ex: le texte des étiquettes de classes).

📖

termes

Modèle Audio-Vision-Texte

Forme avancée de modèle multimodal intégrant trois flux de données (son, image, texte) pour des tâches complexes comme la description de vidéos, où le modèle doit synchroniser et interpréter les informations visuelles et sonores pour produire une narration textuelle.

📖

termes

Projection Latente

Couche de réseau de neurones, souvent une simple transformation linéaire, utilisée pour mapper les vecteurs d'embeddings de chaque modalité dans un espace latent commun avant leur fusion ou leur comparaison.

📖

termes

Modèle Fondamental Multimodal

Modèle de très grande échelle, pré-entraîné sur des quantités massives de données hétérogènes, qui sert de base pour l'adaptation (fine-tuning) à une multitude de tâches multimodales spécifiques.

📖

termes

Modularité dans les Modèles Multimodaux

Principe de conception où les encodeurs pour chaque modalité sont des modules distincts et interchangeables, permettant de mettre à jour ou de remplacer un composant (ex: le vision encoder) sans réentraîner l'ensemble du modèle.

📖

termes

Prompting Multimodal

Technique d'interaction avec un modèle où l'entrée (le 'prompt') est composée de plusieurs modalités, par exemple une image accompagnée d'une question textuelle, pour guider le modèle vers une réponse spécifique.

Glossaire IA

Vision-Language Model (VLM)

Tokenisation Visuelle

Modèle d'Alignement

Génération Conditionnelle Multimodale

Raisonnement Chaîné Multimodal

Perceptron Multimodal

Modèle de Diffusion Multimodal

Encodage Séparé vs Encodage Uni

Zero-Shot Learning Multimodal

Modèle Audio-Vision-Texte

Projection Latente

Modèle Fondamental Multimodal

Modularité dans les Modèles Multimodaux

Prompting Multimodal

Aucun résultat trouvé