AI 词汇表
人工智能完整词典
模型漂移
由于输入数据或变量间关系的变化,导致生产环境中AI模型性能逐渐下降的现象。漂移需要持续监控并可能需要重新训练模型。
数据漂移
模型输入数据分布相对于原始训练数据的统计变化。这种现象可能对预测产生负面影响,需要主动检测。
性能监控
持续监控生产环境中模型的性能指标,包括准确率、精确率、召回率和其他相关KPI。这种监控能够快速发现性能异常。
模型可解释性
理解和解释AI模型决策的能力,对于建立信任和满足监管要求至关重要。SHAP或LIME等技术可以解释单个预测。
特征重要性追踪
持续监控模型用于预测的特征的相对重要性。这种监控有助于识别模型决策模式的变化。
预测置信度分数
表示模型对每个单独预测的确定性水平的定量指标。低置信度分数可能表示存在风险,需要人工干预。
模型退化
由于数据老化或业务环境变化等多种因素,导致生产环境中模型效能逐渐丧失。退化需要主动维护模型。
实时推理监控
实时推理过程中对预测和性能指标的即时监控。这种监控能够立即发现异常和系统故障。
告警系统
自动化基础设施,当模型指标超过预定义阈值时生成通知。警报使得在性能下降显著影响业务之前能够快速干预。
基准指标
在模型验证时建立的性能参考,用作生产监控的比较点。这些基准能够客观量化性能下降。
金丝雀部署
渐进式部署策略,其中新模型在完全部署前在少量流量上测试。此方法最小化了新模型版本相关的风险。
可观测性管道
收集、处理和存储生产中模型的日志、指标和追踪的基础设施。此管道提供系统行为的完整可见性。
漂移检测算法
自动识别数据分布或模型性能变化的统计学或机器学习算法。这些工具能够主动检测漂移。
模型健康仪表板
集中式可视化界面,显示生产模型的关键性能指标、警报和整体健康状态。此工具便于MLOps团队做决策。
异常检测
自动识别模型输出中异常行为或异常预测的过程。这种检测能够分离出需要深入调查的案例。
性能回归
相对于初始参考指标的模型性能可测量的下降。回归可能是渐进的或突然的,需要根本原因分析。
模型治理
一套政策、程序和控制措施,确保模型在其整个生命周期中的合规性、可追溯性和可审计性。治理确保AI系统的可靠性和道德性。
延迟监控
监控生产环境中模型预测的响应时间,对实时应用至关重要。持续监控确保SLA的遵守和用户体验。
吞吐量跟踪
测量单位时间内处理的预测量,对评估系统负载能力至关重要。吞吐量跟踪有助于合理规划基础设施资源。