模型监控 - AI 术语表

📖

个术语

数据漂移

生产环境中输入数据的统计分布相对于训练数据发生变化，可能导致模型性能下降。检测数据漂移对于保持预测的相关性至关重要。

📖

个术语

概念漂移

输入变量与目标变量之间关系的演变，其中问题的含义或背景发生变化。这种漂移更为隐蔽，因为输入分布可能保持稳定。

📖

个术语

性能监控

持续跟踪模型在真实数据上的评估指标（如精确率、召回率、F1分数等），以识别任何性能下降。它可以触发警报和重新训练操作。

📖

个术语

机器学习仪表板 (ML Dashboard)

一个集中的可视化界面，聚合了关键的监控指标、漂移警报以及生产中模型的健康状态。它有助于MLOps团队进行决策。

📖

个术语

自动告警

当性能指标或漂移指标超过预设阈值时触发的通知系统。它确保对模型行为异常做出快速响应。

📖

个术语

稳定性指标

量化当前数据分布与参考（训练）数据分布之间相似度的指标。常用的指标包括Kullback-Leibler散度或种群稳定性指数。

📖

个术语

特征重要性分析

监控每个输入变量对模型预测影响的变化。突然的变化可能表明数据漂移或模型行为的改变。

📖

个术语

生产环境可解释性

监控预测的解释（例如：SHAP、LIME），以确保模型始终使用相同的逻辑和特征。这对于关键系统的信任度和可审计性至关重要。

📖

个术语

预测异常检测

识别异常预测或置信度过低的预测，这可能预示着模型性能下降或存在超出其已知分布范围的数据。这是自动化的一道安全防线。

📖

个术语

预测延迟

衡量从接收请求到模型返回预测之间所经过时间的指标。对于实时应用，其监控至关重要，因为高延迟会影响用户体验。

📖

个术语

生产环境中的偏倚

持续监控模型在真实数据上的公平性和偏倚指标，以确保其不会歧视特定人群。由于偏倚可能随着数据漂移而出现或加剧，因此监控是必要的。

📖

个术语

结构化日志记录

将输入、预测、元数据和性能指标以结构化格式（例如：JSON）进行记录。这有助于事后分析、调试以及为监控管道提供数据。

📖

个术语

模型版本控制

跟踪和管理已训练模型的不同版本，通常通过模型注册表（Model Registry）进行。监控系统必须能够区分每个已部署版本的性能。

📖

个术语

反馈循环

收集关于模型预测的反馈（修正、标注）以供未来训练周期使用的过程。监控此反馈的质量和数量是衡量系统健康状况的指标。

AI 词汇表