Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Document Chunking
Processus de segmentation de documents volumineux en fragments plus petits et cohérents pour optimiser leur traitement par les modèles de langage et les systèmes de recherche vectorielle.
Fixed-size Chunking
Stratégie de segmentation découpant les documents en fragments de taille prédéfinie, basée sur un nombre constant de caractères, de mots ou de tokens.
Semantic Chunking
Approche de segmentation basée sur la compréhension sémantique du contenu, créant des fragments qui préservent la cohérence thématique et contextuelle.
Recursive Character Splitting
Méthode de segmentation hiérarchique qui divise les documents selon une séquence de séparateurs (paragraphes, phrases, mots) jusqu'à atteindre la taille de fragment souhaitée.
Token-based Chunking
Stratégie de segmentation utilisant les tokens comme unité de base, essentielle pour respecter les limites de contexte des modèles de langage comme GPT ou BERT.
Overlapping Chunks
Technique créant des fragments avec des zones de chevauchement pour préserver le contexte entre les segments adjacents et améliorer la cohérence lors de la récupération.
Hierarchical Chunking
Approche multi-niveaux organisant les fragments selon une structure hiérarchique (chapitres, sections, paragraphes) pour permettre une récupération contextuelle à différentes granularités.
Sliding Window Chunking
Méthode faisant glisser une fenêtre de taille fixe sur le document avec un pas défini, créant des fragments séquentiels avec un chevauchement contrôlé.
Markdown-aware Chunking
Stratégie de segmentation intelligente qui respecte la structure Markdown des documents, découpant aux frontières logiques des titres, listes et blocs de code.
Context-aware Chunking
Approche avancée considérant le contexte sémantique global du document pour déterminer les points de coupure optimaux préservant la cohérence narrative.
Embedding-based Chunking
Méthode utilisant les embeddings sémantiques pour identifier les frontières naturelles entre les segments thématiquement distincts dans un document.
Hybrid Chunking Strategy
Combination de plusieurs techniques de segmentation, comme le chunking sémantique avec des limites de taille fixes, pour optimiser à la fois la cohérence et l'efficacité.
Dynamic Chunk Sizing
Approche adaptative ajustant la taille des fragments en fonction de la densité d'information et de la complexité sémantique de chaque section du document.
Metadata-enriched Chunking
Technique associant des métadonnées contextuelles (position, titre parent, niveau hiérarchique) à chaque fragment pour améliorer la récupération et la reconstruction du contexte.
Cross-document Chunking
Stratégie avancée segmentant des ensembles de documents connexes en fragments cohérents préservant les relations inter-documents pour une meilleure compréhension globale.
Multi-level Chunking
Approche créant plusieurs niveaux de fragments (résumés, sections détaillées, paragraphes) pour permettre une récupération flexible selon les besoins de granularité.
Adaptive Chunking
Système intelligent ajustant dynamiquement la stratégie de segmentation en fonction du type de document, du domaine et des patterns d'utilisation observés.