混合检索

📖

个术语

结合向量搜索和关键词搜索方法的方法，旨在同时优化RAG系统中的精确率和召回率。该技术利用语义搜索和词汇搜索的优势，以获得更全面的结果。

📖

个术语

向量搜索

基于高维多维空间中向量嵌入语义相似度的搜索方法。即使没有精确的关键词匹配，也能通过理解上下文找到相关文档。

📖

个术语

关键词搜索

基于文档和查询中术语精确或部分匹配的传统搜索技术。使用BM25等算法，基于术语频率和分布来评估相关性。

📖

个术语

稀疏检索

使用基于特定术语存在或缺失的稀疏文本表示的搜索方法。计算效率更高，特别擅长关键词的精确匹配。

📖

个术语

互逆排序融合

融合多个搜索系统排序结果的算法，使用调和加权公式。通过利用不同方法的互补性获得稳健的排序结果。

📖

个术语

BM25算法

基于术语频率和文档长度的概率排序算法，广泛应用于关键词搜索引擎。被认为是混合系统中词汇搜索的最先进技术。

📖

个术语

FAISS

Facebook AI优化的高维向量空间快速相似性搜索库。对于高效实现混合检索系统的向量组件至关重要。

📖

个术语

交叉编码器

同时编码查询和文档以预测其相互相关性的神经网络模型架构。比双编码器更精确但更慢，常用于混合结果的重新排序。

📖

个术语

Bi-Encoder

将查询和文档分别编码为独立向量的模型架构，用于高效的向量搜索。是大规模混合检索系统中密集组件的基础。

📖

个术语

Re-ranking

使用更复杂的模型对初始搜索结果进行重新评估和重新排序的过程，以提高最终精度。在混合流程中用于精炼最相关文档选择的关键步骤。

📖

个术语

Semantic Similarity

基于两个文本的含义而非确切词语来衡量它们之间的概念接近度。在混合系统中通常通过它们嵌入向量之间的余弦距离计算。

📖

个术语

Embedding Fusion

结合多种类型的嵌入或向量表示以捕捉文本不同语义方面的技术。在多模态混合系统中提高了向量搜索的鲁棒性。

📖

个术语

Query Understanding

分析和解释用户查询意图以优化混合搜索策略的过程。涉及实体检测、意图分类和语义扩展。

📖

个术语

ColBERT

使用令牌级嵌入而非文档级嵌入的上下文搜索模型，以实现最大粒度。在混合检索系统中允许精细的令牌到令牌比较。

📖

个术语

Late Fusion

向量搜索和关键词搜索结果在各自评估后进行融合的组合策略。允许根据查询特征进行动态加权的灵活方法。

📖

个术语

Early Fusion

在索引或文档表示级别结合向量和词汇特征的混合方法。允许信号深度集成但适应性较差。

📖

个术语

密集段落检索器

专门用于检索相关段落的模型，使用BERT编码器生成高质量嵌入向量。在混合RAG系统中是向量检索的关键组件。

AI 词汇表