机器学习基础设施管理

📖

術語

用于机器学习的Kubernetes

适用于机器学习工作负载的Kubernetes容器编排，包括GPU管理、分布式训练的水平扩展和推理模型的自动部署。

📖

術語

GPU集群

将多个GPU聚合为统一的计算集群，实现数据和模型并行化，以加速大规模深度神经网络的训练。

📖

術語

分布式训练

将计算负载分布到多个节点的ML模型训练技术，使用数据并行或模型并行的策略来减少收敛时间。

📖

術語

资源池化

在不同ML任务之间虚拟化和动态共享计算资源（CPU、GPU、内存），优化利用率并降低基础设施成本。

📖

術語

ML自动扩展

基于ML工作负载指标自动调整计算资源的机制，确保在训练或推理高峰期间获得最佳性能。

📖

術語

容器编排

ML应用程序容器的部署、扩展和管理的自动化，包括服务发现、负载均衡和故障恢复能力。

📖

術語

推理优化

一系列技术（量化、剪枝、蒸馏），旨在减少生产环境中推理阶段的模型延迟和内存消耗。

📖

術語

实时推理

能够以最小延迟（通常<100ms）提供预测的基础设施，对欺诈检测或推荐系统等关键应用至关重要。

📖

術語

边缘计算机器学习

将机器学习模型部署在边缘设备上，以减少延迟、保护数据隐私并最小化对网络连接的依赖。

📖

術語

云原生机器学习

利用云原生服务的架构方法，覆盖从分布式训练到无服务器模型部署的完整机器学习生命周期。

📖

術語

模型版本控制基础设施

机器学习模型版本管理系统，包含工件跟踪、训练元数据和回滚能力，确保可追溯性和可重现性。

📖

術語

机器学习负载均衡

基于CPU/GPU负载和预测复杂度，智能地将推理请求分配到多个模型实例，以优化响应时间。

📖

術語

集群管理

监督和管理用于机器学习的计算节点集合，包括训练和推理集群的配置、监控和维护。

📖

術語

竞价实例管理

使用低成本云竞价实例处理非关键机器学习任务的策略，通过检查点和迁移机制管理中断。

📖

術語

GPU调度

在可用GPU资源上优化分配和调度机器学习任务，在满足作业优先级和约束的同时最大化吞吐量。

📖

術語

多云机器学习部署

在多个云服务提供商上部署机器学习模型的策略，以实现冗余、成本优化和数据法规合规性。

📖

術語

无服务器机器学习

一种无需显式管理服务器的机器学习架构，其基础设施能根据负载自动伸缩，并仅按实际使用的资源量计费。

📖

術語

机器学习基础设施即代码

通过声明式代码来自动化配置和管理机器学习基础设施，确保环境的可复现性和版本控制。

AI 詞彙表