AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
文档分块
将大型文档分割成更小且连贯的片段,以优化语言模型和向量检索系统的处理效率。
術語
固定大小分块
基于固定字符数、词数或标记数,将文档分割成预定大小片段的策略。
術語
语义分块
基于对内容语义理解的分割方法,创建能够保持主题和上下文连贯性的片段。
術語
递归字符分割
分层分割方法,按照分隔符序列(段落、句子、词语)逐步分割文档,直到达到所需的片段大小。
術語
基于标记的分块
使用标记作为基本单位的分割策略,对于遵守GPT或BERT等语言模型的上下文限制至关重要。
術語
重叠分块
创建具有重叠区域的片段的技术,以保留相邻段之间的上下文,提高检索时的连贯性。
術語
分层分块
多级别方法,按照层次结构(章节、小节、段落)组织片段,实现在不同粒度上的上下文检索。
術語
滑动窗口分块
使用固定大小的窗口以设定步长在文档上滑动的方法,创建具有可控重叠的连续片段。
術語
Markdown感知分块
智能分段策略,尊重文档的Markdown结构,在标题、列表和代码块的逻辑边界处进行分割。
術語
上下文感知分块
高级方法,考虑文档的全局语义上下文,以确定保留叙事连贯性的最佳分割点。
術語
基于嵌入的分块
使用语义嵌入来识别文档中主题不同段落之间自然边界的方法。
術語
混合分块策略
结合多种分段技术,如语义分块与固定大小限制,以同时优化连贯性和效率。
術語
动态分块大小
自适应方法,根据文档每个部分的信息密度和语义复杂性调整片段大小。
術語
元数据增强分块
将上下文元数据(位置、父标题、层级)与每个片段关联的技术,以改进上下文的检索和重建。
術語
跨文档分块
高级策略,将相关文档集分割成保留文档间关系的连贯片段,以实现更好的整体理解。
術語
多级分块
创建多个级别的片段(摘要、详细部分、段落)的方法,以便根据粒度需求进行灵活检索。
術語
自适应分块
根据文档类型、领域和观察到的使用模式,动态调整分割策略的智能系统。
🔍