实时问答 - AI 术语表

📖

个术语

端到端延迟

衡量从用户发送请求到接收完整响应的总时间，包括QA系统的所有处理步骤。

📖

个术语

语义缓存

基于查询语义相似性的临时答案存储机制，能够快速为相近问题提供预计算答案而无需重新计算。

📖

个术语

实时倒排索引

持续更新术语到文档映射的数据结构，能够即时查询新添加或修改的数据。

📖

个术语

密集检索模型

使用向量嵌入在共同语义空间中表示文档和查询的方法，经过优化以实现快速准确的搜索。

📖

个术语

在线神经重排序

通过深度学习模型动态重新评估搜索结果，以优化最相关答案的排序顺序。

📖

个术语

异步处理管道

处理步骤并行执行而不阻塞主流程的架构，减少用户感知的延迟。

📖

个术语

表示预计算

提前生成并存储文档的编码向量的策略，以消除实时查询时这一耗时步骤。

📖

个术语

知识分片

将知识库水平分割到多个节点上，以并行化搜索并增加并发查询吞吐量。

📖

个术语

低延迟筛选

使用启发式方法或轻量级模型的快速过滤层，在更复杂的模型处理前消除不相关的候选对象。

📖

个术语

响应流式传输

一旦生成就通过连续片段传输响应的方法，改善了长响应的感知响应时间。

📖

个术语

向量剪枝

通过基于预计算的距离或相似性指标消除不相关向量来减少搜索空间的过程。

📖

个术语

批量GPU推理

将多个请求分组以便在GPU上同时处理的优化技术，最大化资源利用率并降低每个请求的延迟。

📖

个术语

混合检索系统

结合关键词搜索（稀疏）和语义搜索（密集）的架构，以平衡精确率和召回率，同时保持低延迟。

📖

个术语

持久连接（WebSocket）

在客户端和服务器之间保持开放的双向通信协议，允许即时交换而无需为每个请求建立连接的开销。

📖

个术语

多级缓存

在多个层级（例如：内存、Redis、CDN）存储响应的策略，以便从最快的可用缓存提供请求服务。

📖

个术语

请求路径优化

分析和优化请求在系统中的路径，以消除瓶颈并最小化每个网络跳转或处理步骤。

AI 词汇表