AI 詞彙表
人工智能完整詞典
向量嵌入
文本或视觉对象在多维向量空间中的密集数值表示,捕获其基本语义特征。这些嵌入使机器能够以量化的方式理解和比较数据的含义。
向量数据库
专门优化的数据库,用于高效存储、索引和查询高维向量表示。它使用HNSW或IVF等高级索引结构来加速相似性搜索。
语义搜索
一种理解查询背后的语义意图和上下文而非仅依赖精确关键词匹配的搜索方法。它使用嵌入来查找概念上相似的文档,即使没有共享词汇。
降维
减少嵌入中维度数量同时保留重要语义关系的算法过程。PCA或t-SNE等技术可优化存储并加速相似性计算。
向量索引
优化后的数据结构,用于组织向量以实现快速最近邻搜索而无需穷举比较。HNSW、IVF或LSH等索引显著降低了查询的时间复杂度。
向量归一化
将向量缩放至单位范数的过程,从而标准化余弦相似度比较。该技术消除了向量大小相关的偏差,仅关注其语义方向。
嵌入模型
将文本或其他数据转换为密集向量表示的预训练神经网络。BERT、Sentence-BERT或OpenAI嵌入等模型根据其架构捕获不同的语义细微差别。
HNSW(分层可导航小世界)
图索引结构,创建多层连接以加速最近邻搜索。它在构建速度、内存效率和搜索质量之间提供了出色的平衡。
IVF(倒排文件索引)
一种索引技术,将向量空间划分为区域(倒排列表),以将搜索限制在相关区域。它结合了粗量化和细量化,在近似最近邻搜索中平衡精度和性能。
距离度量
数学函数,用于量化嵌入空间中两个向量之间的不相似性。常见的度量包括欧几里得距离、余弦相似度和曼哈顿距离,每种都适用于不同的使用场景。
向量存储
RAG架构中负责高效存储和检索文档嵌入的组件。它管理向量的持久化、索引和查询,为增强生成系统提供支持。
密集检索
一种信息检索方法,使用密集嵌入来捕获文档和查询之间的深层语义关系。在理解上下文和意图方面优于TF-IDF等稀疏方法。
嵌入缓存
缓存系统,存储预计算的嵌入以避免冗余计算并加速响应。对于处理重复或相似查询的RAG系统性能至关重要。
分块嵌入
为文档片段而非整个文档创建嵌入的过程,实现更细粒度和精确的检索。最佳分块大小取决于领域和上下文要求。
向量元数据
与每个向量关联的信息,包括源文档标识符、时间戳、相关性分数或其他可过滤属性。元数据允许对搜索结果进行精确筛选。