AI 词汇表
人工智能完整词典
数据漂移
生产环境中输入数据的统计分布相对于训练数据发生变化,可能导致模型性能下降。检测数据漂移对于保持预测的相关性至关重要。
概念漂移
输入变量与目标变量之间关系的演变,其中问题的含义或背景发生变化。这种漂移更为隐蔽,因为输入分布可能保持稳定。
性能监控
持续跟踪模型在真实数据上的评估指标(如精确率、召回率、F1分数等),以识别任何性能下降。它可以触发警报和重新训练操作。
机器学习仪表板 (ML Dashboard)
一个集中的可视化界面,聚合了关键的监控指标、漂移警报以及生产中模型的健康状态。它有助于MLOps团队进行决策。
自动告警
当性能指标或漂移指标超过预设阈值时触发的通知系统。它确保对模型行为异常做出快速响应。
稳定性指标
量化当前数据分布与参考(训练)数据分布之间相似度的指标。常用的指标包括Kullback-Leibler散度或种群稳定性指数。
特征重要性分析
监控每个输入变量对模型预测影响的变化。突然的变化可能表明数据漂移或模型行为的改变。
生产环境可解释性
监控预测的解释(例如:SHAP、LIME),以确保模型始终使用相同的逻辑和特征。这对于关键系统的信任度和可审计性至关重要。
预测异常检测
识别异常预测或置信度过低的预测,这可能预示着模型性能下降或存在超出其已知分布范围的数据。这是自动化的一道安全防线。
预测延迟
衡量从接收请求到模型返回预测之间所经过时间的指标。对于实时应用,其监控至关重要,因为高延迟会影响用户体验。
生产环境中的偏倚
持续监控模型在真实数据上的公平性和偏倚指标,以确保其不会歧视特定人群。由于偏倚可能随着数据漂移而出现或加剧,因此监控是必要的。
结构化日志记录
将输入、预测、元数据和性能指标以结构化格式(例如:JSON)进行记录。这有助于事后分析、调试以及为监控管道提供数据。
模型版本控制
跟踪和管理已训练模型的不同版本,通常通过模型注册表(Model Registry)进行。监控系统必须能够区分每个已部署版本的性能。
反馈循环
收集关于模型预测的反馈(修正、标注)以供未来训练周期使用的过程。监控此反馈的质量和数量是衡量系统健康状况的指标。