AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
交错测试
一种在线评估技术,将多个排名模型的结果混合并同时呈现给用户,相比传统的A/B测试,可以更快、更敏感地收集反馈。
術語
功效分析
一种事前计算,旨在确定A/B测试所需的最小样本量,以便在指定的置信水平和统计功效下检测到给定大小的效应。
術語
在线A/B测试
在实际条件下评估模型或算法的过程,将一部分用户流量导向新版本,以测量其对业务指标的影响。
術語
金丝雀发布
一种渐进式部署策略,新模型首先暴露给非常小的用户或请求子集,如果健康指标为正,则逐步扩大范围。
術語
影子模式部署
部署方式,新模型接收实时流量的副本并与旧模型并行生成预测,不影响用户,用于离线性能比较。
術語
新奇效应
A/B测试中的偏差,用户仅仅因为某事物是新的就对其做出积极反应,与其内在质量无关,这可能会扭曲对新模型的评估。
術語
主要指标
在A/B测试中用于做出最终决策的单一、主要的性能指标(KPI),因其与业务目标(如转化率、CTR)高度相关而被选中。
術語
护栏指标
测试期间监控的次要指标,确保主要指标的改善不会导致系统其他重要方面的负回归(如延迟、成本)。
術語
CUPED (使用实验前数据的对照实验)
一种方差减少技术,使用实验前的用户行为数据来提高A/B测试的统计敏感性,并减少所需的实验时间。
術語
双侧T检验
用于确定两个组之间是否存在显著差异的统计测试(例如:模型A与B的性能对比),不预设这种差异的方向。
術語
卡方检验
应用于分类数据(例如:点击率)的非参数假设检验,用于评估测试变体之间观察到的频率分布是否由随机因素造成。
術語
样本比例不匹配 (SRM)
当实际分配给每个测试变体的用户比例显著偏离预期比例(例如:50/50)时检测到的异常,可能表明存在配置偏差。
術語
偷看问题
在A/B测试计划结束前重复分析结果而引入的偏差,由于I类错误率的膨胀,增加了错误发现(假阳性)的风险。
術語
对照组
在新版本全面部署后,有意保持在旧版本模型上的用户群体,用于持续衡量长期影响。
術語
反事实评估
使用生产模型日志来估计新模型性能的方法论,模拟新模型在相同历史数据上会如何表现。
🔍