🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

交错测试

一种在线评估技术,将多个排名模型的结果混合并同时呈现给用户,相比传统的A/B测试,可以更快、更敏感地收集反馈。

📖
術語

功效分析

一种事前计算,旨在确定A/B测试所需的最小样本量,以便在指定的置信水平和统计功效下检测到给定大小的效应。

📖
術語

在线A/B测试

在实际条件下评估模型或算法的过程,将一部分用户流量导向新版本,以测量其对业务指标的影响。

📖
術語

金丝雀发布

一种渐进式部署策略,新模型首先暴露给非常小的用户或请求子集,如果健康指标为正,则逐步扩大范围。

📖
術語

影子模式部署

部署方式,新模型接收实时流量的副本并与旧模型并行生成预测,不影响用户,用于离线性能比较。

📖
術語

新奇效应

A/B测试中的偏差,用户仅仅因为某事物是新的就对其做出积极反应,与其内在质量无关,这可能会扭曲对新模型的评估。

📖
術語

主要指标

在A/B测试中用于做出最终决策的单一、主要的性能指标(KPI),因其与业务目标(如转化率、CTR)高度相关而被选中。

📖
術語

护栏指标

测试期间监控的次要指标,确保主要指标的改善不会导致系统其他重要方面的负回归(如延迟、成本)。

📖
術語

CUPED (使用实验前数据的对照实验)

一种方差减少技术,使用实验前的用户行为数据来提高A/B测试的统计敏感性,并减少所需的实验时间。

📖
術語

双侧T检验

用于确定两个组之间是否存在显著差异的统计测试(例如:模型A与B的性能对比),不预设这种差异的方向。

📖
術語

卡方检验

应用于分类数据(例如:点击率)的非参数假设检验,用于评估测试变体之间观察到的频率分布是否由随机因素造成。

📖
術語

样本比例不匹配 (SRM)

当实际分配给每个测试变体的用户比例显著偏离预期比例(例如:50/50)时检测到的异常,可能表明存在配置偏差。

📖
術語

偷看问题

在A/B测试计划结束前重复分析结果而引入的偏差,由于I类错误率的膨胀,增加了错误发现(假阳性)的风险。

📖
術語

对照组

在新版本全面部署后,有意保持在旧版本模型上的用户群体,用于持续衡量长期影响。

📖
術語

反事实评估

使用生产模型日志来估计新模型性能的方法论,模拟新模型在相同历史数据上会如何表现。

🔍

搵唔到結果