AI 词汇表
人工智能完整词典
A/B测试
一种实验方法论,比较模型或服务的两个版本(A和B)以根据预定义的指标确定哪个表现更好,通常通过流量的随机分配来实现。
多变量测试
一种高级技术,同时测试多个变量及其组合以识别整体优化,允许评估模型不同因素之间的相互作用。
蓝绿部署
一种部署模式,具有两个相同的环境,在完全验证后将流量完全从旧版本(Blue)切换到新版本(Green),最大限度地减少停机时间。
功能标志
一种控制机制,允许动态启用/禁用特定功能或模型而无需重新部署,便于实验和快速回滚。
流量分割
一种智能路由技术,根据可配置规则按比例将请求分配给不同版本的模型,用于A/B测试或渐进式部署。
统计显著性
一种概率度量,确定测试变体之间观察到的差异是由于真实效应还是偶然性所致,通常p值阈值<0.05。
P值
在零假设为真的情况下观察到至少与测量结果一样极端的结果的概率,作为假设检验中的决策标准。
置信区间
以定义的概率(通常为95%)包含测量参数真实值的估计值范围,量化实验估计的不确定性。
Control Group
Échantillon de population recevant la version de référence (généralement le modèle actuel) servant de baseline pour comparaison statistique avec les variantes expérimentales.
Treatment Group
Segment de population exposé à la variante expérimentale du modèle ou traitement testé, permettant de mesurer l'impact relatif par rapport au groupe de contrôle.
Baseline Model
Modèle de référence utilisé comme point de comparaison pour évaluer les améliorations apportées par de nouvelles versions, souvent le modèle actuellement en production.
Champion-Challenger
Stratégie de compétition continue où le modèle champion actuel est constamment défié par des modèles challengers, le meilleur performer remplaçant progressivement le champion.
Progressive Rollout
Déploiement incrémental d'un nouveau modèle avec augmentation graduelle du pourcentage de trafic, permettant une validation continue et une minimisation des risques d'impact négatif.
Experimentation Platform
Infrastructure centralisée gérant le cycle de vie complet des expérimentations, de la création des variantes à l'analyse statistique des résultats et l'automatisation des décisions.
Metric Drift
Phénomène de dégradation progressive des métriques de performance d'un modèle en production, détecté via le monitoring continu et nécessitant des réévaluations périodiques.
Sample Size Calculation
Processus statistique déterminant le nombre minimum d'observations requis pour détecter une différence significative avec une puissance statistique donnée, essentiel pour la planification des tests.
贝叶斯 A/B 测试
一种使用贝叶斯概率来评估变体的替代方法,允许在样本量更小的情况下进行持续决策,并对结果提供直观的解释。
序贯测试
一种分析方法,允许在预定的时间间隔评估结果,而不会增加 I 类错误的风险,从而优化实验的持续时间和成本。