AI-ordlista
Den kompletta ordlistan över AI
Indexation Inverse
Structure de données qui associe chaque contenu (comme un mot ou un terme) à la liste des documents où il apparaît, optimisant la recherche rapide d'informations pertinentes dans une grande collection.
Dense Retriever
Modèle de récupération qui encode les documents et les questions dans un espace vectoriel continu (dense) pour trouver les correspondances les plus proches sémantiquement, souvent via des réseaux de neurones.
Sparse Retriever
Approche de récupération basée sur la correspondance de mots-clés exacts (termes) entre la question et les documents, utilisant des représentations vectorielles de grande dimension mais majoritairement vides (creuses).
BM25 (Best Match 25)
Fonction de classement probabiliste utilisée dans les moteurs de recherche pour évaluer la pertinence d'un document par rapport à une requête, en se basant sur la fréquence des termes et leur rareté dans la collection.
Reranking
Processus en deux étapes où un premier modèle récupère rapidement un grand nombre de candidats, puis un second modèle, plus complexe et lent, réordonne ces candidats pour affiner la sélection des meilleures réponses.
FAISS (Facebook AI Similarity Search)
Bibliothèque optimisée pour la recherche rapide de similarité et le clustering de vecteurs denses, permettant de gérer efficacement des milliards d'embeddings pour la récupération d'informations.
Maximum Inner Product Search (MIPS)
Problème computationnel qui consiste à trouver, dans une base de données de vecteurs, le vecteur qui maximise le produit scalaire avec un vecteur de requête donné, fondamental pour la récupération dense.
Approximate Nearest Neighbor (ANN)
Ensemble d'algorithmes qui trouvent des points de données proches d'un point de requête en échangeant une perte de précision négligeable pour des gains de vitesse et d'efficacité mémoire significatifs.
ColBERT (Contextualized Late Interaction)
Modèle de récupération qui encode chaque terme d'une requête et d'un document dans son contexte, puis évalue la pertinence via une interaction tardive basée sur la somme des similarités maximales entre les termes.
Elasticsearch
Moteur de recherche et d'analyse distribué, basé sur Apache Lucene, largement utilisé pour implémenter des systèmes de récupération d'informations grâce à ses capacités d'indexation et de requête en temps réel.
TF-IDF (Term Frequency-Inverse Document Frequency)
Métrique statistique qui évalue l'importance d'un mot dans un document par rapport à une collection de documents, en augmentant avec sa fréquence dans le document et en diminuant avec sa fréquence dans la collection.