机器学习自动化测试

📖

術語

模型回归测试

自动化程序，用于验证新模型或新的管道版本在固定的测试数据集上，其性能不会相较于基准版本有所下降。

📖

術語

数据漂移验证

自动化测试，通过比较新的生产数据与训练数据的统计分布，来检测可能影响模型性能的显著变化。

📖

術語

偏见测试

一套自动化程序，用于测量和量化模型对特定人口亚群的系统性偏见，以确保算法的公平性和伦理性。

📖

術語

合规测试

自动化验证，确保模型及其数据遵守现行的法规和标准，例如用于个人数据保护的GDPR（通用数据保护条例）。

📖

術語

延迟性能测试

在负载条件下，自动化测量模型的响应时间，以确保其满足生产环境应用的实时要求。

📖

術語

特征一致性验证

自动化测试，确保由流水线计算的特征遵守模型所期望的模式、类型和值范围约束。

📖

術語

流水线稳定性测试

对ML流水线（预处理、训练、推理）的所有步骤进行自动化验证，以确保其能够确定性地、无错误地运行。

📖

術語

对抗安全性测试

自动化评估模型对于对抗性攻击的脆弱性，这些攻击通过对抗样本诱导模型做出错误预测。

📖

術語

单调性测试

自动化检查模型中特征和预测之间的单调关系，确保特征的增加确实导致预测值的上升（或下降）。

📖

術語

数据质量验证

一系列自动化测试，检查原始数据在被摄入训练或推理管道之前的完整性、唯一性、有效性和一致性。

📖

術語

指标退化测试

持续监控系统，如果模型性能指标（如F1分数、AUC）在生产数据上降至预定义阈值以下，则触发警报。

📖

術語

模型集成测试

自动化验证训练模型与系统其他组件（如API、数据库和监控服务）之间的正确交互。

📖

術語

影子测试

一种技术，其中新模型与生产模型并行部署，接收相同的实际流量但不影响用户，以便在切换前比较它们的性能。

📖

術語

实验可重复性测试

通过使用固定的随机种子运行相同管道来检查训练结果的可重复性，确保变化是微小且可控的。

📖

術語

ML模型金丝雀测试

部署策略，其中新版本模型暴露于生产环境中的一小部分用户流量，允许在全面部署前进行真实条件下的验证。

📖

術語

管道依赖测试

自动化验证ML管道所需的所有库、软件版本和外部资源在目标执行环境中都存在且兼容。

AI 詞彙表