🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Cross-modalité

Capacité d'un système à comprendre et à relier des informations provenant de différentes modalités, comme le texte et les images, pour enrichir la compréhension contextuelle.

📖
termes

Vision-Language Transformer (VLT)

Architecture Transformer pré-entraînée sur de vastes corpus d'images et de textes appariés, conçue pour des tâches de compréhension et de génération multimodales.

📖
termes

Raisonnement Visuel

Capacité d'un système QA à déduire des informations non explicites en analysant les relations spatiales, les attributs d'objets ou les scènes complexes dans une image.

📖
termes

Grounding Visuel

Action d'ancrer des concepts linguistiques (mots, phrases) à des entités ou des régions spécifiques dans une image ou une vidéo, créant un lien sémantique tangible.

📖
termes

Alignement Modalité-à-Modalité

Processus d'apprentissage qui met en correspondance les segments d'une modalité (ex: une phrase) avec les segments pertinents d'une autre (ex: une zone d'image).

📖
termes

Codebook Vectoriel Quantifié (VQ)

Technique utilisée dans les modèles multimodaux pour discrétiser les représentations continues (ex: d'images) en un ensemble fini de tokens discrets, facilitant leur traitement par des modèles de langage.

📖
termes

Perceptron Multimodal (MLP)

Réseau de neurones, souvent un MLP, qui prend en entrée les caractéristiques fusionnées de plusieurs modalités pour effectuer une tâche de classification ou de régression finale.

📖
termes

Modèle de Fusion à Deux Flux

Architecture où chaque modalité est traitée par un réseau de neurones distinct (un flux) avant que leurs représentations soient combinées pour une prise de décision commune.

📖
termes

Récupération d'Information Multimodal

Tâche consistant à retrouver des documents (ex: images) pertinents à partir d'une requête dans une autre modalité (ex: texte), en se basant sur leur similarité dans un espace d'embedding partagé.

📖
termes

Génération de Réponse Conditionnelle

Processus où un modèle de langue génère une réponse textuelle dont le contenu est conditionné et guidé par les informations extraites d'une modalité non textuelle comme une image.

📖
termes

Tokenisation d'Image

Processus de conversion d'une image en une séquence de tokens discrets, souvent via un VAE ou un VQ-VAE, pour la rendre compatible avec les architectures de type Transformer.

🔍

Aucun résultat trouvé