AI 詞彙表
人工智能完整詞典
用于机器学习的Kubernetes
适用于机器学习工作负载的Kubernetes容器编排,包括GPU管理、分布式训练的水平扩展和推理模型的自动部署。
GPU集群
将多个GPU聚合为统一的计算集群,实现数据和模型并行化,以加速大规模深度神经网络的训练。
分布式训练
将计算负载分布到多个节点的ML模型训练技术,使用数据并行或模型并行的策略来减少收敛时间。
资源池化
在不同ML任务之间虚拟化和动态共享计算资源(CPU、GPU、内存),优化利用率并降低基础设施成本。
ML自动扩展
基于ML工作负载指标自动调整计算资源的机制,确保在训练或推理高峰期间获得最佳性能。
容器编排
ML应用程序容器的部署、扩展和管理的自动化,包括服务发现、负载均衡和故障恢复能力。
推理优化
一系列技术(量化、剪枝、蒸馏),旨在减少生产环境中推理阶段的模型延迟和内存消耗。
实时推理
能够以最小延迟(通常<100ms)提供预测的基础设施,对欺诈检测或推荐系统等关键应用至关重要。
边缘计算机器学习
将机器学习模型部署在边缘设备上,以减少延迟、保护数据隐私并最小化对网络连接的依赖。
云原生机器学习
利用云原生服务的架构方法,覆盖从分布式训练到无服务器模型部署的完整机器学习生命周期。
模型版本控制基础设施
机器学习模型版本管理系统,包含工件跟踪、训练元数据和回滚能力,确保可追溯性和可重现性。
机器学习负载均衡
基于CPU/GPU负载和预测复杂度,智能地将推理请求分配到多个模型实例,以优化响应时间。
集群管理
监督和管理用于机器学习的计算节点集合,包括训练和推理集群的配置、监控和维护。
竞价实例管理
使用低成本云竞价实例处理非关键机器学习任务的策略,通过检查点和迁移机制管理中断。
GPU调度
在可用GPU资源上优化分配和调度机器学习任务,在满足作业优先级和约束的同时最大化吞吐量。
多云机器学习部署
在多个云服务提供商上部署机器学习模型的策略,以实现冗余、成本优化和数据法规合规性。
无服务器机器学习
一种无需显式管理服务器的机器学习架构,其基础设施能根据负载自动伸缩,并仅按实际使用的资源量计费。
机器学习基础设施即代码
通过声明式代码来自动化配置和管理机器学习基础设施,确保环境的可复现性和版本控制。