🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

A/B测试

一种实验方法论,比较模型或服务的两个版本(A和B)以根据预定义的指标确定哪个表现更好,通常通过流量的随机分配来实现。

📖
个术语

多变量测试

一种高级技术,同时测试多个变量及其组合以识别整体优化,允许评估模型不同因素之间的相互作用。

📖
个术语

蓝绿部署

一种部署模式,具有两个相同的环境,在完全验证后将流量完全从旧版本(Blue)切换到新版本(Green),最大限度地减少停机时间。

📖
个术语

功能标志

一种控制机制,允许动态启用/禁用特定功能或模型而无需重新部署,便于实验和快速回滚。

📖
个术语

流量分割

一种智能路由技术,根据可配置规则按比例将请求分配给不同版本的模型,用于A/B测试或渐进式部署。

📖
个术语

统计显著性

一种概率度量,确定测试变体之间观察到的差异是由于真实效应还是偶然性所致,通常p值阈值<0.05。

📖
个术语

P值

在零假设为真的情况下观察到至少与测量结果一样极端的结果的概率,作为假设检验中的决策标准。

📖
个术语

置信区间

以定义的概率(通常为95%)包含测量参数真实值的估计值范围,量化实验估计的不确定性。

📖
个术语

Control Group

Échantillon de population recevant la version de référence (généralement le modèle actuel) servant de baseline pour comparaison statistique avec les variantes expérimentales.

📖
个术语

Treatment Group

Segment de population exposé à la variante expérimentale du modèle ou traitement testé, permettant de mesurer l'impact relatif par rapport au groupe de contrôle.

📖
个术语

Baseline Model

Modèle de référence utilisé comme point de comparaison pour évaluer les améliorations apportées par de nouvelles versions, souvent le modèle actuellement en production.

📖
个术语

Champion-Challenger

Stratégie de compétition continue où le modèle champion actuel est constamment défié par des modèles challengers, le meilleur performer remplaçant progressivement le champion.

📖
个术语

Progressive Rollout

Déploiement incrémental d'un nouveau modèle avec augmentation graduelle du pourcentage de trafic, permettant une validation continue et une minimisation des risques d'impact négatif.

📖
个术语

Experimentation Platform

Infrastructure centralisée gérant le cycle de vie complet des expérimentations, de la création des variantes à l'analyse statistique des résultats et l'automatisation des décisions.

📖
个术语

Metric Drift

Phénomène de dégradation progressive des métriques de performance d'un modèle en production, détecté via le monitoring continu et nécessitant des réévaluations périodiques.

📖
个术语

Sample Size Calculation

Processus statistique déterminant le nombre minimum d'observations requis pour détecter une différence significative avec une puissance statistique donnée, essentiel pour la planification des tests.

📖
个术语

贝叶斯 A/B 测试

一种使用贝叶斯概率来评估变体的替代方法,允许在样本量更小的情况下进行持续决策,并对结果提供直观的解释。

📖
个术语

序贯测试

一种分析方法,允许在预定的时间间隔评估结果,而不会增加 I 类错误的风险,从而优化实验的持续时间和成本。

🔍

未找到结果