🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

交错测试

一种在线评估技术,将多个排名模型的结果混合并同时呈现给用户,相比传统的A/B测试,可以更快、更敏感地收集反馈。

📖
个术语

功效分析

一种事前计算,旨在确定A/B测试所需的最小样本量,以便在指定的置信水平和统计功效下检测到给定大小的效应。

📖
个术语

在线A/B测试

在实际条件下评估模型或算法的过程,将一部分用户流量导向新版本,以测量其对业务指标的影响。

📖
个术语

金丝雀发布

一种渐进式部署策略,新模型首先暴露给非常小的用户或请求子集,如果健康指标为正,则逐步扩大范围。

📖
个术语

影子模式部署

部署方式,新模型接收实时流量的副本并与旧模型并行生成预测,不影响用户,用于离线性能比较。

📖
个术语

新奇效应

A/B测试中的偏差,用户仅仅因为某事物是新的就对其做出积极反应,与其内在质量无关,这可能会扭曲对新模型的评估。

📖
个术语

主要指标

在A/B测试中用于做出最终决策的单一、主要的性能指标(KPI),因其与业务目标(如转化率、CTR)高度相关而被选中。

📖
个术语

护栏指标

测试期间监控的次要指标,确保主要指标的改善不会导致系统其他重要方面的负回归(如延迟、成本)。

📖
个术语

CUPED (使用实验前数据的对照实验)

一种方差减少技术,使用实验前的用户行为数据来提高A/B测试的统计敏感性,并减少所需的实验时间。

📖
个术语

双侧T检验

用于确定两个组之间是否存在显著差异的统计测试(例如:模型A与B的性能对比),不预设这种差异的方向。

📖
个术语

卡方检验

应用于分类数据(例如:点击率)的非参数假设检验,用于评估测试变体之间观察到的频率分布是否由随机因素造成。

📖
个术语

样本比例不匹配 (SRM)

当实际分配给每个测试变体的用户比例显著偏离预期比例(例如:50/50)时检测到的异常,可能表明存在配置偏差。

📖
个术语

偷看问题

在A/B测试计划结束前重复分析结果而引入的偏差,由于I类错误率的膨胀,增加了错误发现(假阳性)的风险。

📖
个术语

对照组

在新版本全面部署后,有意保持在旧版本模型上的用户群体,用于持续衡量长期影响。

📖
个术语

反事实评估

使用生产模型日志来估计新模型性能的方法论,模拟新模型在相同历史数据上会如何表现。

🔍

未找到结果