Indexation Vectorielle - Glossaire IA

📖

termes

Vector Embedding

Représentation numérique dense d'un objet textuel ou visuel dans un espace vectoriel multidimensionnel, capturant ses caractéristiques sémantiques fondamentales. Ces embeddings permettent aux machines de comprendre et de comparer le sens des données de manière quantitative.

📖

termes

Vector Database

Base de données spécialisée optimisée pour stocker, indexer et interroger efficacement des représentations vectorielles à haute dimension. Elle utilise des structures d'indexation avancées comme HNSW ou IVF pour accélérer les recherches de similarité.

📖

termes

Semantic Search

Méthode de recherche qui comprend l'intention et le contexte sémantique derrière une requête plutôt que de se baser uniquement sur les correspondances de mots-clés exactes. Elle utilise les embeddings pour trouver des documents conceptuellement similaires même sans partage de vocabulaire.

📖

termes

Dimensionality Reduction

Processus algorithmique qui réduit le nombre de dimensions dans les embeddings tout en préservant les relations sémantiques importantes. Des techniques comme PCA ou t-SNE permettent d'optimiser le stockage et d'accélérer les calculs de similarité.

📖

termes

Vector Index

Structure de données optimisée qui organise les vecteurs pour permettre des recherches rapides de plus proches voisins sans comparaison exhaustive. Les index comme HNSW, IVF ou LSH réduisent considérablement la complexité temporelle des requêtes.

📖

termes

Vector Normalization

Processus de mise à l'échelle des vecteurs pour avoir une norme unitaire, standardisant ainsi les comparaisons de similarité cosinus. Cette technique élimine les biais liés à la magnitude des vecteurs et se concentre uniquement sur leur direction sémantique.

📖

termes

Embedding Model

Réseau neuronal pré-entraîné qui transforme le texte ou d'autres données en représentations vectorielles denses. Des modèles comme BERT, Sentence-BERT ou OpenAI embeddings capturent différentes nuances sémantiques selon leur architecture.

📖

termes

HNSW (Hierarchical Navigable Small World)

Structure d'indexation graphe qui crée plusieurs couches de connexions pour accélérer la recherche des plus proches voisins. Elle offre un excellent compromis entre rapidité de construction, efficacité mémoire et qualité de recherche.

📖

termes

IVF (Inverted File Index)

Technique d'indexation qui partitionne l'espace vectoriel en régions (listes inversées) pour limiter la recherche aux zones pertinentes. Elle combine des quantiseurs coarse et fine pour équilibrer précision et performance dans les recherches ANN.

📖

termes

Distance Metrics

Fonctions mathématiques qui quantifient la dissimilarité entre deux vecteurs dans l'espace d'embedding. Les métriques communes incluent la distance euclidienne, la similarité cosinus et la distance de Manhattan, chacune adaptée à différents cas d'usage.

📖

termes

Vector Store

Composant d'architecture RAG responsable du stockage et de la récupération efficace des embeddings de documents. Il gère la persistance, l'indexation et l'interrogation des vecteurs pour alimenter le système de génération augmentée.

📖

termes

Dense Retrieval

Approche de récupération d'information qui utilise des embeddings denses pour capturer les relations sémantiques profondes entre documents et requêtes. Elle surpasse les méthodes sparses comme TF-IDF pour comprendre le contexte et l'intention.

📖

termes

Embedding Cache

Système de mise en cache qui stocke les embeddings précalculés pour éviter les calculs redondants et accélérer les réponses. Il est crucial pour les performances des systèmes RAG traitant des requêtes récurrentes ou similaires.

📖

termes

Chunk Embedding

Processus de création d'embeddings pour des segments de documents plutôt que pour des documents entiers, permettant une récupération plus granulaire et précise. La taille optimale des chunks dépend du domaine et des exigences de contexte.

📖

termes

Vector Metadata

Informations associées à chaque vecteur incluant l'identifiant du document source, les horodatages, les scores de pertinence ou d'autres attributs filtrables. Les métadonnées permettent un affinage précis des résultats de recherche.

Glossaire IA

Vector Embedding

Vector Database

Semantic Search

Dimensionality Reduction

Vector Index

Vector Normalization

Embedding Model

HNSW (Hierarchical Navigable Small World)

IVF (Inverted File Index)

Distance Metrics

Vector Store

Dense Retrieval

Embedding Cache

Chunk Embedding

Vector Metadata

Aucun résultat trouvé