AI 詞彙表
人工智能完整詞典
ML流水线编排
协调和自动化机器学习工作流中相互连接的步骤序列,从数据摄取到模型部署,确保执行、监控和依赖管理。
有向无环图 (DAG)
用于表示流水线中任务之间依赖关系的无环定向图结构,其中每个节点是一个任务,边定义执行顺序,确保没有无限循环。
工作流管理器
负责复杂工作流的规划、执行、监控和错误恢复的系统或软件工具,通常基于DAG来编排分布式任务。
任务调度
根据依赖关系、资源可用性和预定义触发器(时间、事件)确定流水线中单个任务何时以及如何执行的机制。
流水线依赖管理
显式管理流水线步骤之间的前置关系,确保任务只在所有父任务成功完成后才执行。
幂等性
任务或流水线操作的属性,保证使用相同输入多次执行产生相同的最终状态,对错误恢复和可靠性至关重要。
流水线缓存
存储流水线任务或中间步骤的输出结果以避免在后续运行中不必要地重新执行的技术,从而加速迭代过程。
流水线参数化
设计具有可配置外部变量的流水线的实践,允许使用不同的超参数、数据集或配置启动执行,而无需修改流水线代码。
管道版本控制
随时间跟踪和管理管道的不同迭代和配置,通常通过版本控制系统,以确保实验的可重复性和可追溯性。
资源置备
动态分配执行管道中每个任务所需的计算资源(CPU、GPU、内存),以优化基础设施的利用率和成本。
管道链接
一种高级编排技术,其中一个完整管道的输出作为另一个管道的输入,从而能够组合出更复杂、更模块化的端到端工作流。
条件执行
一种编排逻辑,根据先前步骤的结果或外部条件,来启用或禁用管道中某些分支或任务的执行。
管道监控
通过仪表盘、警报和日志持续监控正在运行管道的进度、性能和错误,以确保其正常运行。
工作流即代码
一种范式,其中管道定义及其编排逻辑像源代码(如Python或YAML)一样被声明和管理,促进了基础设施即代码和协作。
管道重新运行
编排器能够选择性地重新启动管道的一部分或全部,无论是为了修复错误、测试变更还是更新数据。
服务水平协议(SLA)监控
跟踪管道相对于预定义目标(例如:最长执行时间、成功率)的性能,并在未达标时发出警报,以保证服务质量。