AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
分布式机器学习
机器学习模型训练范式,将计算分布在多台机器上以处理海量数据集并减少训练时间。
術語
参数服务器
分布式架构,将模型参数集中在专用服务器上,允许工作节点以异步方式更新和同步梯度。
術語
AllReduce
集体通信算法,在分布式训练环境中实现所有节点间梯度的同步归约和广播。
術語
数据并行
并行化策略,将数据分区到多台机器上,每台机器使用不同的批次训练相同的模型副本。
術語
Spark MLlib
基于Apache Spark构建的可扩展机器学习库,提供经典ML算法的分布式实现。
術語
TensorFlow分布式
TensorFlow的分布式训练框架,使用MirroredStrategy和MultiWorkerMirroredStrategy等策略来扩展训练规模。
術語
Horovod
由Uber开发的开源框架,通过MPI使用AllReduce算法实现深度学习模型的高效分布式训练。
術語
Ray
专为机器学习和AI优化的分布式计算框架,提供大规模并行执行和状态管理的原语。
術語
Petastorm
支持高效访问存储在Apache Parquet中的大型数据集,用于分布式深度学习模型训练。
術語
Dask-ML
Dask的扩展,集成了可扩展的机器学习算法和并行化工具,用于集群上的机器学习工作流程。
術語
Kubeflow
基于Kubernetes的开源平台,用于部署和管理具有容器化编排功能的大规模复杂机器学习管道。
術語
MLflow
用于管理机器学习项目完整生命周期的开源平台,包括跟踪、模型管理和大规模可重复性。
術語
Feast
开源特征存储,提供用于大规模特征管理、版本控制和服务的抽象层。
術語
Vertex AI
Google Cloud的统一平台,用于大规模机器学习模型的训练、部署和管理,集成了AutoML和MLOps。
術語
SageMaker
AWS全托管服务,用于分布式训练、部署和监控机器学习模型,具有自动资源优化功能。
術語
Sharding
在多个节点上对数据或模型进行水平分区,以实现并行处理并减少单机负载。
術語
弹性训练
在训练过程中动态调整工作节点数量的能力,以优化资源利用并降低成本。
🔍