基于检索的问答 - AI 术语表

📖

个术语

倒排索引

一种数据结构，将每个内容（如单词或术语）与其出现的文档列表相关联，优化了在大集合中快速搜索相关信息的过程。

📖

个术语

密集检索器

一种检索模型，将文档和问题编码到连续（密集）的向量空间中，以找到语义上最接近的匹配项，通常通过神经网络实现。

📖

个术语

稀疏检索器

一种基于问题与文档之间精确关键词（术语）匹配的检索方法，使用高维度但大部分为空（稀疏）的向量表示。

📖

个术语

BM25（最佳匹配25）

搜索引擎中使用的概率排序函数，用于评估文档相对于查询的相关性，基于术语频率及其在集合中的稀有度。

📖

个术语

重排序

一个两步过程，其中第一个模型快速检索大量候选者，然后第二个更复杂、更慢的模型对这些候选者重新排序，以优化最佳答案的选择。

📖

个术语

FAISS（Facebook AI相似性搜索）

一个优化的库，用于快速相似性搜索和密集向量聚类，能够高效管理数十亿个嵌入向量以进行信息检索。

📖

个术语

最大内积搜索（MIPS）

计算问题，旨在向量数据库中找到与给定查询向量具有最大内积的向量，是密集检索的基础。

📖

个术语

近似最近邻（ANN）

一组算法，它们通过以可忽略的精度损失换取显著的速度和内存效率提升，来查找与查询点接近的数据点。

📖

个术语

ColBERT（上下文后期交互）

一种检索模型，它将查询和文档中的每个词项在其上下文中编码，然后通过基于词项间最大相似度之和的后期交互来评估相关性。

📖

个术语

Elasticsearch

基于Apache Lucene的分布式搜索和分析引擎，因其实时索引和查询能力而被广泛用于实现信息检索系统。

📖

个术语

TF-IDF（词频-逆文档频率）

一种统计指标，通过在文档中增加词语频率并在文档集合中降低词语频率来评估一个词在文档中的重要性。

AI 词汇表