机器学习模型的验证与测试

📂

个子类别

交叉验证

一种评估技术，将数据划分为多个子集，通过多次迭代测试模型的泛化能力。

2 个术语

📂

个子类别

统计检验

用于显著比较不同模型或配置之间性能的正式统计方法。

15 个术语

📂

个子类别

性能指标

一组定量指标（准确率、召回率、F1分数、平均绝对误差、均方根误差），根据上下文衡量预测质量。

9 个术语

📂

个子类别

偏差-方差分析

将泛化误差分解为偏差（欠拟合）和方差（过拟合），以优化模型复杂度。

13 个术语

📂

个子类别

鲁棒性测试

评估预测在面对扰动、噪声和输入数据变化时的稳定性。

13 个术语

📂

个子类别

时间验证

针对序列数据的特定方法论，训练使用测试之前的时间段以模拟真实条件。

10 个术语

📂

个子类别

ROC曲线和AUC

用于评估不同决策阈值下二元分类器性能的图形工具和度量指标。

3 个术语

📂

个子类别

模型校准

调整预测概率，使其准确反映事件实际发生的频率。

6 个术语

📂

个子类别

公平性测试

评估人口统计偏见及模型在伦理和监管标准下的潜在歧视。

10 个术语

📂

个子类别

错误分析

系统性检查错误预测以识别失败模式并指导模型改进。

9 个术语

📂

个子类别

Bootstrap 验证

自助法（Bootstrap）：一种通过有放回重采样来估计性能指标变异性和可靠性的技术。

9 个术语

📂

个子类别

压力测试

评估模型在极端条件或边界情况下的行为，以确定其操作限制。

16 个术语

📂

个子类别

敏感性测试

分析输入特征变化对预测结果的影响，以了解模型的稳定性。

13 个术语

📂

个子类别

外部验证

在来自全新来源或分布的数据上测试模型，以评估其泛化能力。

9 个术语

📂

个子类别

性能退化测试

持续监控生产环境中模型的性能，以检测数据漂移和时间性能退化。

7 个术语

AI 词汇表

交叉验证

统计检验

性能指标

偏差-方差分析

鲁棒性测试

时间验证

ROC曲线和AUC

模型校准

公平性测试

错误分析

Bootstrap 验证

压力测试

敏感性测试

外部验证

性能退化测试

未找到结果