大规模机器学习 - AI 詞彙表

📖

術語

分布式机器学习

机器学习模型训练范式，将计算分布在多台机器上以处理海量数据集并减少训练时间。

📖

術語

参数服务器

分布式架构，将模型参数集中在专用服务器上，允许工作节点以异步方式更新和同步梯度。

📖

術語

AllReduce

集体通信算法，在分布式训练环境中实现所有节点间梯度的同步归约和广播。

📖

術語

数据并行

并行化策略，将数据分区到多台机器上，每台机器使用不同的批次训练相同的模型副本。

📖

術語

Spark MLlib

基于Apache Spark构建的可扩展机器学习库，提供经典ML算法的分布式实现。

📖

術語

TensorFlow分布式

TensorFlow的分布式训练框架，使用MirroredStrategy和MultiWorkerMirroredStrategy等策略来扩展训练规模。

📖

術語

Horovod

由Uber开发的开源框架，通过MPI使用AllReduce算法实现深度学习模型的高效分布式训练。

📖

術語

Ray

专为机器学习和AI优化的分布式计算框架，提供大规模并行执行和状态管理的原语。

📖

術語

Petastorm

支持高效访问存储在Apache Parquet中的大型数据集，用于分布式深度学习模型训练。

📖

術語

Dask-ML

Dask的扩展，集成了可扩展的机器学习算法和并行化工具，用于集群上的机器学习工作流程。

📖

術語

Kubeflow

基于Kubernetes的开源平台，用于部署和管理具有容器化编排功能的大规模复杂机器学习管道。

📖

術語

MLflow

用于管理机器学习项目完整生命周期的开源平台，包括跟踪、模型管理和大规模可重复性。

📖

術語

Feast

开源特征存储，提供用于大规模特征管理、版本控制和服务的抽象层。

📖

術語

Vertex AI

Google Cloud的统一平台，用于大规模机器学习模型的训练、部署和管理，集成了AutoML和MLOps。

📖

術語

SageMaker

AWS全托管服务，用于分布式训练、部署和监控机器学习模型，具有自动资源优化功能。

📖

術語

Sharding

在多个节点上对数据或模型进行水平分区，以实现并行处理并减少单机负载。

📖

術語

弹性训练

在训练过程中动态调整工作节点数量的能力，以优化资源利用并降低成本。

AI 詞彙表