Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Latence de bout en bout
Mesure du temps total écoulé entre l'envoi d'une requête par un utilisateur et la réception de la réponse complète, incluant toutes les étapes de traitement du système QA.
Cache Sémantique
Mécanisme de stockage temporaire des réponses basé sur la similarité sémantique des requêtes, permettant de servir rapidement des réponses pré-calculées pour des questions proches sans recalcul.
Indexation Inversée en Temps Réel
Structure de données qui met à jour continuellement le mapping des termes vers les documents, permettant l'interrogation instantanée de données nouvellement ajoutées ou modifiées.
Modèle de Récupération Dense (Dense Retrieval)
Approche utilisant des plongements vectoriels pour représenter les documents et les requêtes dans un espace sémantique commun, optimisée pour une recherche rapide et précise.
Reranking Neuronal en Ligne
Processus de réévaluation des résultats de recherche par un modèle de deep learning appliqué dynamiquement pour affiner l'ordre des réponses les plus pertinentes.
Pipeline de Traitement Asynchrone
Architecture où les étapes de traitement s'exécutent en parallèle sans bloquer le flux principal, réduisant la latence perçue par l'utilisateur.
Pré-calcul de Représentations
Stratégie consistant à générer et stocker les vecteurs d'encodage des documents en amont pour éliminer cette étape coûteuse lors des requêtes en temps réel.
Sharding de Connaissances
Partitionnement horizontal de la base de connaissances sur plusieurs nœuds pour paralléliser les recherches et augmenter le débit de requêtes simultanées.
Filtrage par Faible Latence
Couche de filtrage rapide utilisant des heuristiques ou des modèles légers pour éliminer les candidats non pertinents avant le traitement par des modèles plus complexes.
Streaming de Réponses
Méthode de transmission des réponses par fragments successifs dès qu'ils sont générés, améliorant le temps perçu de réponse pour les réponses longues.
Élagage de Vecteurs (Vector Pruning)
Processus de réduction de l'espace de recherche en éliminant les vecteurs peu pertinents basé sur des métriques de distance ou de similarité pré-calculées.
Inférence sur GPU Batchée
Technique d'optimisation qui regroupe plusieurs requêtes pour les traiter simultanément sur un GPU, maximisant l'utilisation des ressources et réduisant la latence par requête.
Système de Recherche Hybride
Architecture combinant recherche par mots-clés (sparse) et recherche sémantique (dense) pour équilibrer précision et rappel tout en maintenant une faible latence.
Connexion Persistante (WebSocket)
Protocole de communication bidirectionnel maintenu ouvert entre le client et le serveur, permettant des échanges instantanés sans surcharge de connexion pour chaque requête.
Mise en Cache Multi-Niveaux
Stratégie de stockage des réponses à plusieurs couches (ex: mémoire, Redis, CDN) pour servir les requêtes depuis le cache le plus rapide disponible.
Optimisation du Chemin de Requête
Analyse et raffinement du parcours d'une requête à travers le système pour éliminer les goulots d'étranglement et minimiser chaque saut réseau ou traitement.