模型的监控和可观测性

📖

个术语

模型漂移

由于输入数据或变量间关系的变化，导致生产环境中AI模型性能逐渐下降的现象。漂移需要持续监控并可能需要重新训练模型。

📖

个术语

数据漂移

模型输入数据分布相对于原始训练数据的统计变化。这种现象可能对预测产生负面影响，需要主动检测。

📖

个术语

性能监控

持续监控生产环境中模型的性能指标，包括准确率、精确率、召回率和其他相关KPI。这种监控能够快速发现性能异常。

📖

个术语

模型可解释性

理解和解释AI模型决策的能力，对于建立信任和满足监管要求至关重要。SHAP或LIME等技术可以解释单个预测。

📖

个术语

特征重要性追踪

持续监控模型用于预测的特征的相对重要性。这种监控有助于识别模型决策模式的变化。

📖

个术语

预测置信度分数

表示模型对每个单独预测的确定性水平的定量指标。低置信度分数可能表示存在风险，需要人工干预。

📖

个术语

模型退化

由于数据老化或业务环境变化等多种因素，导致生产环境中模型效能逐渐丧失。退化需要主动维护模型。

📖

个术语

实时推理监控

实时推理过程中对预测和性能指标的即时监控。这种监控能够立即发现异常和系统故障。

📖

个术语

告警系统

自动化基础设施，当模型指标超过预定义阈值时生成通知。警报使得在性能下降显著影响业务之前能够快速干预。

📖

个术语

基准指标

在模型验证时建立的性能参考，用作生产监控的比较点。这些基准能够客观量化性能下降。

📖

个术语

金丝雀部署

渐进式部署策略，其中新模型在完全部署前在少量流量上测试。此方法最小化了新模型版本相关的风险。

📖

个术语

可观测性管道

收集、处理和存储生产中模型的日志、指标和追踪的基础设施。此管道提供系统行为的完整可见性。

📖

个术语

漂移检测算法

自动识别数据分布或模型性能变化的统计学或机器学习算法。这些工具能够主动检测漂移。

📖

个术语

模型健康仪表板

集中式可视化界面，显示生产模型的关键性能指标、警报和整体健康状态。此工具便于MLOps团队做决策。

📖

个术语

异常检测

自动识别模型输出中异常行为或异常预测的过程。这种检测能够分离出需要深入调查的案例。

📖

个术语

性能回归

相对于初始参考指标的模型性能可测量的下降。回归可能是渐进的或突然的，需要根本原因分析。

📖

个术语

模型治理

一套政策、程序和控制措施，确保模型在其整个生命周期中的合规性、可追溯性和可审计性。治理确保AI系统的可靠性和道德性。

📖

个术语

延迟监控

监控生产环境中模型预测的响应时间，对实时应用至关重要。持续监控确保SLA的遵守和用户体验。

📖

个术语

吞吐量跟踪

测量单位时间内处理的预测量，对评估系统负载能力至关重要。吞吐量跟踪有助于合理规划基础设施资源。

AI 词汇表