🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📂
个子类别

交叉验证

一种评估技术,将数据划分为多个子集,通过多次迭代测试模型的泛化能力。

2 个术语
📂
个子类别

统计检验

用于显著比较不同模型或配置之间性能的正式统计方法。

15 个术语
📂
个子类别

性能指标

一组定量指标(准确率、召回率、F1分数、平均绝对误差、均方根误差),根据上下文衡量预测质量。

9 个术语
📂
个子类别

偏差-方差分析

将泛化误差分解为偏差(欠拟合)和方差(过拟合),以优化模型复杂度。

13 个术语
📂
个子类别

鲁棒性测试

评估预测在面对扰动、噪声和输入数据变化时的稳定性。

13 个术语
📂
个子类别

时间验证

针对序列数据的特定方法论,训练使用测试之前的时间段以模拟真实条件。

10 个术语
📂
个子类别

ROC曲线和AUC

用于评估不同决策阈值下二元分类器性能的图形工具和度量指标。

3 个术语
📂
个子类别

模型校准

调整预测概率,使其准确反映事件实际发生的频率。

6 个术语
📂
个子类别

公平性测试

评估人口统计偏见及模型在伦理和监管标准下的潜在歧视。

10 个术语
📂
个子类别

错误分析

系统性检查错误预测以识别失败模式并指导模型改进。

9 个术语
📂
个子类别

Bootstrap 验证

自助法(Bootstrap):一种通过有放回重采样来估计性能指标变异性和可靠性的技术。

9 个术语
📂
个子类别

压力测试

评估模型在极端条件或边界情况下的行为,以确定其操作限制。

16 个术语
📂
个子类别

敏感性测试

分析输入特征变化对预测结果的影响,以了解模型的稳定性。

13 个术语
📂
个子类别

外部验证

在来自全新来源或分布的数据上测试模型,以评估其泛化能力。

9 个术语
📂
个子类别

性能退化测试

持续监控生产环境中模型的性能,以检测数据漂移和时间性能退化。

7 个术语
🔍

未找到结果