机器学习的 A/B 测试

📖

个术语

交错测试

一种在线评估技术，将多个排名模型的结果混合并同时呈现给用户，相比传统的A/B测试，可以更快、更敏感地收集反馈。

📖

个术语

功效分析

一种事前计算，旨在确定A/B测试所需的最小样本量，以便在指定的置信水平和统计功效下检测到给定大小的效应。

📖

个术语

在线A/B测试

在实际条件下评估模型或算法的过程，将一部分用户流量导向新版本，以测量其对业务指标的影响。

📖

个术语

金丝雀发布

一种渐进式部署策略，新模型首先暴露给非常小的用户或请求子集，如果健康指标为正，则逐步扩大范围。

📖

个术语

影子模式部署

部署方式，新模型接收实时流量的副本并与旧模型并行生成预测，不影响用户，用于离线性能比较。

📖

个术语

新奇效应

A/B测试中的偏差，用户仅仅因为某事物是新的就对其做出积极反应，与其内在质量无关，这可能会扭曲对新模型的评估。

📖

个术语

主要指标

在A/B测试中用于做出最终决策的单一、主要的性能指标(KPI)，因其与业务目标（如转化率、CTR）高度相关而被选中。

📖

个术语

护栏指标

测试期间监控的次要指标，确保主要指标的改善不会导致系统其他重要方面的负回归（如延迟、成本）。

📖

个术语

CUPED (使用实验前数据的对照实验)

一种方差减少技术，使用实验前的用户行为数据来提高A/B测试的统计敏感性，并减少所需的实验时间。

📖

个术语

双侧T检验

用于确定两个组之间是否存在显著差异的统计测试（例如：模型A与B的性能对比），不预设这种差异的方向。

📖

个术语

卡方检验

应用于分类数据（例如：点击率）的非参数假设检验，用于评估测试变体之间观察到的频率分布是否由随机因素造成。

📖

个术语

样本比例不匹配 (SRM)

当实际分配给每个测试变体的用户比例显著偏离预期比例（例如：50/50）时检测到的异常，可能表明存在配置偏差。

📖

个术语

偷看问题

在A/B测试计划结束前重复分析结果而引入的偏差，由于I类错误率的膨胀，增加了错误发现（假阳性）的风险。

📖

个术语

对照组

在新版本全面部署后，有意保持在旧版本模型上的用户群体，用于持续衡量长期影响。

📖

个术语

反事实评估

使用生产模型日志来估计新模型性能的方法论，模拟新模型在相同历史数据上会如何表现。

AI 词汇表