QA à Base de Récupération

📖

termes

Indexation Inverse

Structure de données qui associe chaque contenu (comme un mot ou un terme) à la liste des documents où il apparaît, optimisant la recherche rapide d'informations pertinentes dans une grande collection.

📖

termes

Dense Retriever

Modèle de récupération qui encode les documents et les questions dans un espace vectoriel continu (dense) pour trouver les correspondances les plus proches sémantiquement, souvent via des réseaux de neurones.

📖

termes

Sparse Retriever

Approche de récupération basée sur la correspondance de mots-clés exacts (termes) entre la question et les documents, utilisant des représentations vectorielles de grande dimension mais majoritairement vides (creuses).

📖

termes

BM25 (Best Match 25)

Fonction de classement probabiliste utilisée dans les moteurs de recherche pour évaluer la pertinence d'un document par rapport à une requête, en se basant sur la fréquence des termes et leur rareté dans la collection.

📖

termes

Reranking

Processus en deux étapes où un premier modèle récupère rapidement un grand nombre de candidats, puis un second modèle, plus complexe et lent, réordonne ces candidats pour affiner la sélection des meilleures réponses.

📖

termes

FAISS (Facebook AI Similarity Search)

Bibliothèque optimisée pour la recherche rapide de similarité et le clustering de vecteurs denses, permettant de gérer efficacement des milliards d'embeddings pour la récupération d'informations.

📖

termes

Maximum Inner Product Search (MIPS)

Problème computationnel qui consiste à trouver, dans une base de données de vecteurs, le vecteur qui maximise le produit scalaire avec un vecteur de requête donné, fondamental pour la récupération dense.

📖

termes

Approximate Nearest Neighbor (ANN)

Ensemble d'algorithmes qui trouvent des points de données proches d'un point de requête en échangeant une perte de précision négligeable pour des gains de vitesse et d'efficacité mémoire significatifs.

📖

termes

ColBERT (Contextualized Late Interaction)

Modèle de récupération qui encode chaque terme d'une requête et d'un document dans son contexte, puis évalue la pertinence via une interaction tardive basée sur la somme des similarités maximales entre les termes.

📖

termes

Elasticsearch

Moteur de recherche et d'analyse distribué, basé sur Apache Lucene, largement utilisé pour implémenter des systèmes de récupération d'informations grâce à ses capacités d'indexation et de requête en temps réel.

📖

termes

TF-IDF (Term Frequency-Inverse Document Frequency)

Métrique statistique qui évalue l'importance d'un mot dans un document par rapport à une collection de documents, en augmentant avec sa fréquence dans le document et en diminuant avec sa fréquence dans la collection.

Glossaire IA

Indexation Inverse

Dense Retriever

Sparse Retriever

BM25 (Best Match 25)

Reranking

FAISS (Facebook AI Similarity Search)

Maximum Inner Product Search (MIPS)

Approximate Nearest Neighbor (ANN)

ColBERT (Contextualized Late Interaction)

Elasticsearch

TF-IDF (Term Frequency-Inverse Document Frequency)

Aucun résultat trouvé